PySpark与开发环境的集成

PySpark 本地环境(Mac)

自己在学习PySpark的时候遇到许多问题,下面来写一下自己所遇到的问题,配置过程中主要问题还是python2和python3之间的版本冲突比较多,spark2.3.2 自带的python环境是python2, 而本地环境是python3

我这个是要 java、scala 都安装好的情况下,这些都比较简单,其他文章多看看,我这个主要讲环境集成问题,spark安装的情况下看

1. Pycharm集成PySpark

1.1 配置环境变量

在这里插入图片描述

SPARK_HOME=/usr/local/spark      # spark的环境变量
PYTHONPATH=/usr/local/spark/python   # Python的路径(这里不注意就有问题,版本错误主要在这个,这是spark自带的环境,如果你下面的python interpreter使用也是python2, 环境就配置好了)
1.2 添加运行包

在这里插入图片描述
这个就比较简单,看spark 的路径下的 Python/lib包下的两个zip 加进去,这些都比较简单,自己多找找就OK了。

1.3 改为python3

如果想使用python3 就需要把PYTHONPATH 配置成你的python3的位置(建议整一个Anaconda)然后运行环境
python interpreter 也改为Python3就行了

2. PySpark集成Jupyter nootbook

Jupyter就不多说了,下面就说一下怎么运行PySpark, 其实也是解决版本冲突问题

"Python in worker has different version 2.7 than that in driver 3.6"

网上也看了很多,都没解决,也有代码中加变量的方法,就不介绍了,下面直接重点

export PYSPARK_PYTHON=/Users/pengleicao/opt/anaconda3/bin/python3
export PYSPARK_DRIVER_PYTHON=/Users/pengleicao/opt/anaconda3/bin/python3

jupyter 的环境就是python3 ,就直接配置/etc/profile 加入上面两条变量就OK了

3. PySpark集成 VS code

这个也是我比较推崇的一个,这个环境都不用配置,安装后,安装一个插件pyhotn 就会自动识别你Python的位置。

vscode 是个编辑器,好用在于他比较轻便、环境不用配置、关键是代码能一行一行的运行,测试代码就比较方便

比jupyter好的是有代码提示,所以还是比较推崇,运行结果也会记录

大家有Pyspark环境安装问题,欢迎留言交流

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值