用Pycharm搭建pyspark开发环境

安装配置Anaconda

这个我就不自己写了,找了个很详细的Anaconda 的安装教程

配置Hadoop

我们首先需要下载一个文件,我放到网盘网盘了如下所示。

链接:https://pan.baidu.com/s/1DSzClPJyM5s6MpNx9sv2fA 
提取码:pbke

在这里插入图片描述
下载解压之后,就可以就配置HADOOP_HOME的环境变量了,我的电脑上是把文件都放在了E盘根目录下。

右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。
在这里插入图片描述

配置Spark

然后就是配置SPARK_HOME的环境变量了,我的电脑上是吧文件都放在了E盘根目录下。
在这里插入图片描述
右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。
在这里插入图片描述

PyCharm配置

保证anaconda已经安装完成,此时PyCharm中就可以创建conda的虚拟环境了。创建新项目,选Pure Python,然后选择Conda虚拟环境,python版本为3.7,设置名称后点击create。
在这里插入图片描述
然后点击左上角的File->settings
在这里插入图片描述
点击右边的+号,添加py4j和pyspark以及psutil包,使用搜索栏查到包后点击Install Package即可。
在这里插入图片描述
点击下图中的倒三角后选择最后一个Show All…
在这里插入图片描述
点击下图标记1对应红色方框中的按钮,再点击标记2对应的新窗口右上角的+号把%SPARK_HOME%\python和%SPARK_HOME%\python\lib\py4j-0.10.8.1-src.zip添加到变量中即可,能看到我是已经添加过的。
在这里插入图片描述

测试Pyspark

在pycharm中新建py文件写入代码如下。

from pyspark import SparkContext

sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
    dict_new = {}
    wd = word_dict_b.value
    for w in d:
        if wd[w] in dict_new:
            dict_new[wd[w]] += 1
        else:
            dict_new[wd[w]] = 1
    return dict_new

print(doc.map(wordCountPerDoc).collect())
print("successful!")

点击run后的截图如下:
在这里插入图片描述

  • 4
    点赞
  • 47
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

临水而愚

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值