在搭建大数据pyspark环境时遇到的问题/坑,困扰了两三天,记录一下。
我的环境版本如下:
- linux16.04
- python3.5(linux自带)
- Hadoop2.7
- java 1.8_8u281
按照厦门大学实验室安装教程搭建环境,当时选择了最新的spark-3.1.1版本,如图:
按照教程流程安装完后,运行pyspark失败,报错AttributeError: 'NoneType' object has no attribute 'items'。报错界面如下:
百度了一下竟然没有人遇到相同的问题,就考虑可能是版本问题。用windows下的python3.6直接pip3 install pyspark,下载的版本也是pyspark-3.1.1。发现可以正常运行。查了一下spark-3.1.1目前还不是稳定版