一、 环境配置
1)Python环境配置
2)Pycharm可在官网下载
3)以及相应版本的Spark下载。如登录Spark官网,下载1.6.0的版本。
- 并将压缩包解压,解压至相应路径,如D:\spark-1.6.0-bin-hadoop2.6。
- 添加 SPARK_HOME = D:\spark-1.6.0-bin-hadoop2.6。
- 并将 %SPARK_HOME%/bin 添加至环境变量PATH。
- 然后进入命令行,输入pyspark命令。若成功执行。则成功设置环境变量
二、pyspark模块导入
打开Pycharm,新建一个Python工程,以及新建word_count.py,执行以下代码,测试能否导入spark包
import os
# Path for spark source folder
os.environ['SPARK_HOME'] = "D:\spark-1.6.0-bin-