Python3.6.5中并没有实现安装好numpy跟py4j的包,但是这两个包是pyspark以及其中的MLlib运行必不可少的模块,因此需要为pyspark使用的Python3.6.5安装模块包。
环境:
Python3.6.5
Spark1.6.3
hadoop2.6.4
centos6.8
步骤:
1.下载numpy跟py4j的安装包,https://pypi.org/project/numpy/,https://pypi.org/project/py4j/,https://www.py4j.org/install.html
选择zip包
2.上传到Linux的任意目录下,使用unzip解压,需要在每个Spark的子节点执行这一步骤,这里以安装numpy为例,py4j及pip方法一致
unzip numpy-1.15.1.zip
3.进入numpy
cd numpy-1.15.1
4.执行以下命令
python3 setup.py install //python3是Python3.6.5在/usr/bin下的软连接
安装过程可能会提示以下错误
解决方法:安装devel
yum install -y python-devel
再重新执行python3 setup.py install
5.退出numpy目录,进入python3环境,测试是否安装了numpy
import numpy
6.启动Spark,验证是否可以导入numpy