错误显示:zipimport.ZipImportError:can't decompress data:zlib not available
然后我输入sc变量,它竟然显示Nameerror:name ‘sc’ is not defined
当我打开pyspark时,加载时显示zipimport导入错误,网上搜了下,大部分说缺少zib*依赖。博主按照网上的使用sudo apt-get install zlib*命令安装这个zlib*发现问题还是没有得到解决。使用了其他方法也没用。
经过多番折腾,终于知道了错误原因是spark环境配置中的python版本与我手动升级后的python不一致,所以只需要更新下spark /conf/spark-env.sh 这个环境配置文件就大功告成啦哈哈。
cd /usr/local/spark
vim ./conf/spark-env.sh
在这个文件加入以下代码,重新指定pyspark使用的python路径(如果没有这个PYSPARK_PYTHON变量可以直接添加,之前设置过只需要更改这个变量后面的路径)。
export PYSPARK_PYTHON=/usr/bin/python3
你自己的python路径可使用whereis python3命令查看。PYSPARK_PYTHON这个变量代表pyspark使用的python版本路径。如博主的python路径如下,你会发现咋这么多路径,其实首先只要关注/usr/bin/
路径下。发现有python3.5跟python3这两个,其实都一样(通过软链接绑定的),所以博主的python3路径为 /usr/bin/python3
然后重新启动下hadoop以及spark即可。正确运行pyspark如下:
=>原创不易,请点个关注共同进步哦。
友情链接:linux升级python2.7到3.x :https://blog.csdn.net/zengmingen/article/details/74264292