首先电脑中安装有java8和python. (注意配置好java的环境变量,自行搜索即可,不然后面在pycharm中运行会报错)
安装spark
2. 设置环境变量:
HADOOP_HOME=C:\winutils\hadoop-2.7.1
SPARK_HOME=C:\Spark\spark-2.2.0-bin-hadoop2.7
3. 创建一个目录tmp/hive
运行下面命令让该文件夹获取权限:
C:\winutils\hadoop-2.7.1\bin\winutils.exe chmod 777 C:\tmp\hive
4.验证是否spark安装成功:
C:\Spark\spark-2.2.0-bin-hadoop2.7>bin\spark-shell
pycharm设置
1. 创建一个虚拟环境File -> Settings -> Project Interpreter -> select Create Virtual Environment
2. 在Project Interpreter里,选择show all,选择新建的虚拟环境,点击Show paths for the selected interpreter
选项
3. 将一下两个path加入
D:/spark-2.4.3-bin-hadoop2.7/python
D:/spark-2.4.3-bin-hadoop2.7/python/lib/py4j-0.10.7-src.zip
最后,在pycharm中运行文件时,最前面加上(这是因为我上面配置好了各种环境变量还是各种提示没有JAVA_HOME环境变量和找不到hadoop,只好写上这两行):import os
os.environ['JAVA_HOME'] = "C:\Program Files\Java\jdk1.8.0_161" # 你自己的java目录
os.environ['HADOOP_HOME'] = "D:\winutils\hadoop-2.7.1" # 你自己的hadoop目录
可以使用如下代码进行测试:from pyspark import SparkContext
sc = SparkContext('local',"count app")
words = sc.parallelize(
['scala',
'java',
'hadoop',
'spark',
'pyspark']
)
counts = words.count()
print("number of words:",counts)