1.安装anaconda2
安装好之后,本地python环境就采用anaconda自带的python2.7的环境。
2.安装py4j
在本地ctrl+r打开控制台后,直接使用pip安装py4j,因为anaconda默认是安装了pip的,当然也可以使用conda安装。
安装命令:pip install py4j
如果不安装py4j可能出现的问题?
答:因为Spark的Python版本的API依赖于py4j,如果不安装运行程序会抛出如下错误。
![](http://upload-images.jianshu.io/upload_images/5056128-dd64fa4757e62438.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
3.配置环境变量
(1).先打开Run Configurations
![](http://upload-images.jianshu.io/upload_images/5056128-077acaa0bb7c892f.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
(2).编辑Environment variables
![](http://upload-images.jianshu.io/upload_images/5056128-9c9d87867e400a2b.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
菜单:File-->Settings (图来源于互联网~这里我用的是python2)
(3).在Environment variables下增加spark和python的环境
增加SPARK_HOME目录与PYTHONPATH目录。
- SPARK_HOME:Spark安装目录
- PYTHONPATH:Spark安装目录下的Python目录
4.复制pyspark的包
编写Spark程序,复制pyspark的包,增加代码显示功能
为了让我们在PyCharm编写Spark程序时有代码提示和补全功能,需要将Spark的pyspark导入到Python中。在Spark的程序中有Python的包,叫做pyspark
![](https://images2015.cnblogs.com/blog/735738/201706/735738-20170602125625399-97127774.png)
pyspark包
Python导入第三方的包也很容易,只需要把相应的模块导入到指定的文件夹就可以了。
windows中将pyspark拷贝到Python的site-packages目录下(这里使用的是anaconda)
![](https://images2015.cnblogs.com/blog/735738/201706/735738-20170602125529539-899659238.png)
5.测试代码
import sys from operator import add from pyspark import SparkContext
logFile = "D:\\BigData\\Workspace\\PycharmProjects\\MachineLearning1\\word.txt"
sc = SparkContext("local", "PythonWordCount")
logData = sc.textFile(logFile).cache()
numAs = logData.filter(lambda s: 'a' in s).count()
numBs = logData.filter(lambda s: 'b' in s).count()
print("Lines with a: %i, lines with b: %i" % (numAs, numBs))
![](https://images2015.cnblogs.com/blog/735738/201706/735738-20170602130428618-957803055.png)