用Pycharm搭建pyspark开发环境

最新推荐文章于 2024-05-12 19:15:22 发布

临水而愚

最新推荐文章于 2024-05-12 19:15:22 发布

阅读量6.9k

点赞数 4

分类专栏： Spark学习笔记

本文链接：https://blog.csdn.net/qq_42091436/article/details/104799767

版权

Spark学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

安装配置Anaconda

这个我就不自己写了，找了个很详细的Anaconda 的安装教程。

配置Hadoop

我们首先需要下载一个文件，我放到网盘网盘了如下所示。

链接：https://pan.baidu.com/s/1DSzClPJyM5s6MpNx9sv2fA 
提取码：pbke

在这里插入图片描述
下载解压之后，就可以就配置HADOOP_HOME的环境变量了，我的电脑上是把文件都放在了E盘根目录下。

右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。
在这里插入图片描述

配置Spark

然后就是配置SPARK_HOME的环境变量了，我的电脑上是吧文件都放在了E盘根目录下。
在这里插入图片描述
右键此电脑->属性->点击左边的高级系统设置->环境变量->点击系统变量下的新建。

PyCharm配置

保证anaconda已经安装完成，此时PyCharm中就可以创建conda的虚拟环境了。创建新项目，选Pure Python，然后选择Conda虚拟环境，python版本为3.7，设置名称后点击create。
在这里插入图片描述
然后点击左上角的File->settings

点击右边的+号，添加py4j和pyspark以及psutil包，使用搜索栏查到包后点击Install Package即可。

点击下图中的倒三角后选择最后一个Show All…

点击下图标记1对应红色方框中的按钮，再点击标记2对应的新窗口右上角的+号把%SPARK_HOME%\python和%SPARK_HOME%\python\lib\py4j-0.10.8.1-src.zip添加到变量中即可，能看到我是已经添加过的。
在这里插入图片描述

测试Pyspark

在pycharm中新建py文件写入代码如下。

from pyspark import SparkContext

sc = SparkContext('local')
doc = sc.parallelize([['a', 'b', 'c'], ['b', 'd', 'd']])
words = doc.flatMap(lambda d: d).distinct().collect()
word_dict = {w: i for w, i in zip(words, range(len(words)))}
word_dict_b = sc.broadcast(word_dict)

def wordCountPerDoc(d):
    dict_new = {}
    wd = word_dict_b.value
    for w in d:
        if wd[w] in dict_new:
            dict_new[wd[w]] += 1
        else:
            dict_new[wd[w]] = 1
    return dict_new

print(doc.map(wordCountPerDoc).collect())
print("successful!")

点击run后的截图如下：
在这里插入图片描述

临水而愚

关注

4
点赞
踩
47

收藏

觉得还不错? 一键收藏
打赏
4
评论
用Pycharm搭建pyspark开发环境

安装配置Anaconda这个我就不自己写了，找了个很详细的Anaconda 的安装教程。配置Hadoop我们首先需要下载一个文件，我放到网盘网盘了如下所示。链接：https://pan.baidu.com/s/1DSzClPJyM5s6MpNx9sv2fA 提取码：pbke下载解压之后，就可以就配置HADOOP_HOME的环境变量了，我的电脑上是吧文件都放在了E盘根目录下。右键此...
复制链接

扫一扫