安装配置Anaconda
这个我就不自己写了,找了个很详细的Anaconda 的安装教程。
配置Hadoop
我们首先需要下载一个文件,我放到网盘网盘了如下所示。
链接:https://pan.baidu.com/s/1DSzClPJyM5s6MpNx9sv2fA
提取码:pbke
下载解压之后,就可以就配置HADOOP_HOME的环境变量了,我的电脑上是把文件都放在了E盘根目录下。
右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。
配置Spark
然后就是配置SPARK_HOME的环境变量了,我的电脑上是吧文件都放在了E盘根目录下。
右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。
PyCharm配置
保证anaconda已经安装完成,此时PyCharm中就可以创建conda的虚拟环境了。创建新项目,选Pure Python,然后选择Conda虚拟环境,python版本为3.7,设置名称后点击create。
然后点击左上角的File->settings
点击右边的+号,添加py4j和pyspark以及psutil包,使用搜索栏查到包后点击Install Package即可。
点击下图中的倒三角后选择最后一个Show All…
点击下图标记1对应红色方框中的按钮,再点击标记2对应的新窗口右上角的+号把%SPARK_HOME%\python和%SPARK_HOME%\python\lib\py4j-0.10.8.1-src.zip添加到变量中即可,能看到我是已经添加过的。
测试Pyspark
在pycharm中新建py文件写入代码如下。
from pyspark import SparkContext
sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)
def wordCountPerDoc(d):
dict_new = {}
wd = word_dict_b.value
for w in d:
if wd[w] in dict_new:
dict_new[wd[w]] += 1
else:
dict_new[wd[w]] = 1
return dict_new
print(doc.map(wordCountPerDoc).collect())
print("successful!")
点击run后的截图如下: