idea上搭建pyspark开发环境

最新推荐文章于 2024-05-17 09:27:34 发布

jackyan163

最新推荐文章于 2024-05-17 09:27:34 发布

阅读量1.4k

点赞数 1

分类专栏：大数据文章标签： python spark big data

本文链接：https://blog.csdn.net/qq_42409495/article/details/120810632

版权

大数据专栏收录该内容

32 篇文章 2 订阅

订阅专栏

1 环境版本说明

python版本：Anaconda3.6.5
spark版本：spark-2.4.8-bin-hadoop2.7
idea版本：2019.3

2 环境变量配置

2.1 python环境变量配置

将python.exe所在的目录配置到path环境变量中

2.2 spark环境变量配置

下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz
将安装包解压到一个非中文目录
配置SPARK_HOME环境变量

2.3 python中安装py4j模块。

安装方法1：用pip命令安装
在python环境中安装py4j模块(python调用java API的中间通信模块)
安装命令为：

pip install py4j

注：卸载python 模块：pip uninstall py4j

安装方法2：直接拷贝安装
将解压的spark安装包中的python\lib\py4j拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功：进入python ,import py4j

不报错代表安装成功！

2.4 python中安装pyspark模块。

安装方法1：用pip命令安装
安装命令为：

pip install pyspark

注：卸载python 模块：pip uninstall pyspark

安装方法2：直接拷贝安装
将解压的spark安装包中的python\lib\pyspark拷贝到python安装目录的Lib\site-packages中
验证py4j是否安装成功：进入python ,import pyspark

不报错代表安装成功！

3 idea配置环境

3.1 idea安装python插件

File--Setting--Plugins搜索python模块

3.2 配置python解释器环境

Run--Edit Configurations--Templates--Python，在右侧找到Environment->Environment Variables

配置PYTHONPATH和SPARK_HOME两个环境变量

3.3 关联源码

File--Project Structure--modules，点击最右侧加号：

选择第一个JARs or directories，找到PYTHONPATH下的Lib文件夹，直接添加进来即可，弹出的窗口选择Jar Directory

4测试

4.1创建python项目

4.2创建Python Package：com.jackyan.spark

4.3创建WordCount的python代码WordCount.py

from pyspark import SparkConf, SparkContext

def showResult(one):
    print(one)

if __name__=="__main__":
    conf = SparkConf()
    conf.setMaster("local")
    conf.setAppName("test")
    sc = SparkContext(conf=conf)
    lines = sc.textFile("./words")
    words = lines.flatMap(lambda line: line.split(" "))
    pairWords = words.map(lambda word: (word, 1))
    reduceResult = pairWords.reduceByKey(lambda v1, v2: v1 + v2)
    reduceResult.foreach(lambda one:showResult(one))

4.4 编写用来测试的文件words

hello jackyan
hello spark
hello python
hello spark
hello java
hello scala
hello java
hello world
hello jackyan

4.5 运行测试pyspark程序

jackyan163

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
1
评论
idea上搭建pyspark开发环境

1 环境版本说明python版本：Anaconda3.6.5spark版本：spark-2.4.8-bin-hadoop2.7idea版本：2019.32 环境变量配置2.1 python环境变量配置将python.exe所在的目录配置到path环境变量中2.2 spark环境变量配置下载spark安装包，我下载的是spark-2.4.8-bin-hadoop2.7.tgz将安装包解压到一个非中文目录配置SPARK_HOME环境变量2.3 python中安装py4
复制链接

扫一扫

专栏目录