前言
实验环境:
1.pyspark 1.5.0
2.python 2.7
本次主要写的是用pyspark提交任务时,需要注意的地方及遇到的问题的解决。
Step 1. 提交python工程
在提交spark的时候,我们往往python工程是多个python文件,彼此之间有调用关系。
那如何提交python工程呢?
./bin/spark-submit –py-files XXXX.zip aaa.py即可
XXXX是你将你所有需要用到的python文件打包成一个zip文件
aaa是你的python文件的main函数所在的py文件。
Step 2. python 版本问题不一致
提交以后,我遇到了cannot different version python 2.6 in driver and python 2.7….
大概是这样的错误,是说不同节点的python版本不一致,导致的运行错误。
解决方法:
import os
os.environ['PYTHONPATH']='python2'