1 环境版本说明
python版本:Anaconda3.6.5
spark版本:spark-2.4.8-bin-hadoop2.7
idea版本:2019.3
2 环境变量配置
2.1 python环境变量配置
将python.exe所在的目录配置到path环境变量中
2.2 spark环境变量配置
下载spark安装包,我下载的是spark-2.4.8-bin-hadoop2.7.tgz
将安装包解压到一个非中文目录
配置SPARK_HOME环境变量
2.3 python中安装py4j模块。
安装方法1:用pip命令安装
在python环境中安装py4j模块(python调用java API的中间通信模块)
安装命令为:
pip install py4j
注:卸载python 模块:pip uninstall py4j
安装方法2:直接拷贝安装
将解压的spark安装包中的python\lib\py4j拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功:进入python ,import py4j
不报错代表安装成功!
2.4 python中安装pyspark模块。
安装方法1:用pip命令安装
安装命令为:
pip install pyspark
注:卸载python 模块:pip uninstall pyspark
安装方法2:直接拷贝安装
将解压的spark安装包中的python\lib\pyspark拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功:进入python ,import pyspark
不报错代表安装成功!
3 idea配置环境
3.1 idea安装python插件
File--Setting--Plugins搜索python模块
3.2 配置python解释器环境
Run--Edit Configurations--Templates--Python,在右侧找到Environment->Environment Variables
配置PYTHONPATH和SPARK_HOME两个环境变量
3.3 关联源码
File--Project Structure--modules,点击最右侧加号:
选择第一个JARs or directories,找到PYTHONPATH下的Lib文件夹,直接添加进来即可,弹出的窗口选择Jar Directory
4测试
4.1创建python项目
4.2创建Python Package:com.jackyan.spark
4.3创建WordCount的python代码WordCount.py
from pyspark import SparkConf, SparkContext
def showResult(one):
print(one)
if __name__=="__main__":
conf = SparkConf()
conf.setMaster("local")
conf.setAppName("test")
sc = SparkContext(conf=conf)
lines = sc.textFile("./words")
words = lines.flatMap(lambda line: line.split(" "))
pairWords = words.map(lambda word: (word, 1))
reduceResult = pairWords.reduceByKey(lambda v1, v2: v1 + v2)
reduceResult.foreach(lambda one:showResult(one))
4.4 编写用来测试的文件words
hello jackyan
hello spark
hello python
hello spark
hello java
hello scala
hello java
hello world
hello jackyan