为pyspark中的python安装numpy、py4j模块

Python3.6.5中并没有实现安装好numpy跟py4j的包,但是这两个包是pyspark以及其中的MLlib运行必不可少的模块,因此需要为pyspark使用的Python3.6.5安装模块包。

环境:

Python3.6.5

Spark1.6.3

hadoop2.6.4

centos6.8

步骤:

1.下载numpy跟py4j的安装包,https://pypi.org/project/numpy/,https://pypi.org/project/py4j/,https://www.py4j.org/install.html

选择zip包

2.上传到Linux的任意目录下,使用unzip解压,需要在每个Spark的子节点执行这一步骤,这里以安装numpy为例,py4j及pip方法一致

unzip numpy-1.15.1.zip

3.进入numpy

cd numpy-1.15.1

4.执行以下命令

python3 setup.py install    //python3是Python3.6.5在/usr/bin下的软连接

安装过程可能会提示以下错误

解决方法:安装devel

yum install -y python-devel

再重新执行python3 setup.py install

5.退出numpy目录,进入python3环境,测试是否安装了numpy

import numpy

6.启动Spark,验证是否可以导入numpy

 

 

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值