今天花了一些时间来整理mac osx系统下用anaconda环境配置pyspark+jupyter notebook启动的整个过程。
背景介绍:
我原本用的是anaconda 2.7版本,创建了python3的环境变量,安装了python3,虽然在jupyter notebook能够正常导入pyspark,但是对rdd算子聚合后计数总会报错。
jupyter notebook文件
python in worker has different version 2.7 than that in driver 3.6, PySpark cannot run with different minor versions.Please check environment variables PYSPARK_PYTHON and PYSPARK_DRIVER_PYTHON are correctly set.
应该是需要修改环境变量。
修改环境变量一般在终端修改.bash_profile文件
#在终端键入
$vi ./.bash_profile
#然后在打开的文件当中加上以下这些内容
export SPARK_HOME=~spark-2.3.1-bin-hadoop2.7#这里是指明了SPARK要调用的路径,就是你解压缩的文件
export PATH="$PARK_HOME/bin:$PATH"#这里将上面的环境变量加入到应用程序的执行搜索路径
export PYSPARK_DRIVER_PYTHON=