在实验室配置了一个Spark集群,传统的方法就是在Windows本地开发项目,完了后打包,然后上传到Linux服务器上,最后执行spark-submit 。但是在实际开发用还是感觉用IDE比较好,于是找到了Pycharm远程连接Linux服务器开发Spark项目的方法。
1.设置环境变量
在Linux中/usr/local/spark/spark-2.2.0-bin-hadoop2.7/python/lib 目录下py4j 包添加在系统环境变量中,注意源码包的版本问题,要与下面安装的py4j 的版本一致才行。
vim /etc/profile
#添加环境变量
export PYTHONPATH=$SPARK_HOME/python/:$SPARK_HOME/python/lib/py4j-0.10.4-src.zip
#生效
source /etc/profile
2.远程服务器同步配置
2.1在Linux上安装py4j
我的集群(Centos 7)上原本是Python2.7 ,后来是工作需要改为了Python3.6.4 。在Centos 7 安装py4j 首先要安装pip3 ,这里采用Yum安装的方式。
在使用yum安装的时候会出现无法使用yum的错误,根据提示信息将文件最上面的改为python2.7即可。
yum install pip3
pip3 install py4j
image.png
2.2配置Deployment
首先我们需要配置PyCharm通服务器的代码同步&#