1、安装spark
此处安装spark2.3.0版本
2、安装Python
根据已经安装的spark版本选择需要的Python版本,比如我的电脑安装的是spark2.3.0,选择的对应的Python版本就不能超过3.5,我个人喜欢安装anaconda集成的Python,对应的anaconda版本为3.4.2
1)bash bash Anaconda3-4.2.0-Linux-x86_64.sh
2)修改环境变量
打开文件:vi /etc/profile
添加一行:export PATH=$PATH:/root/anaconda3/bin
退出文件后更新:source /etc/profile
3、更新sklearn(个人机器学习时需要用到的包),不能超过0.21版
pip install -U scikit_learn
4、服务器上因为安装了GP数据库,自带了Python2.7版本,为了不影响GP的使用,此版本Python并没有卸载,我们又安装了Python3.5版本,会出现冲突,Python3直接打不开,需要进行操作:
打开文件:vi /etc/profile
添加2行:unset PYTHONHOME
unset PYTHONPATH
退出文件后更新:source /etc/profile
5、进入Python环境后发现不能import pyspark,报错:no module named pyspark . 这是因为Python并没有把pyspark加入搜索目录,需要进行操作:
打开文件:vi /etc/profile</