参考:http://ihoge.cn/2018/anacondaPyspark.html
前言
首次安装的环境搭配是这样的:
jdk8
hadoop2.6.5
spark2.1
scala2.12.4
Anaconda3-5.1.0
一连串的报错让人惊喜无限,尽管反复调整配置始终无法解决。
坑了一整天后最后最终发现是版本不兼容!!再次提醒自己一定要重视各组件版本的问题。这里最主要的是spark和Anaconda版本的兼容问题,为了兼容python3尽量用新版的spark。最终解决方案的版本搭配如下:
jdk8
hadoop2.7.5
spark2.3.0
scala2.11.12
Anaconda3-5.1.0
一、VM安装Ubuntu16.04虚拟机
sudo apt-get update
sudo apt-get install vim
sudo apt-get install openssh-server
# 配置ssh免密登陆
ssh localhost
ssh-keygen -t rsa //一路回车
cat id_rsa.pub >> authorized_keys
sudo vi /etc/hosts //添加各个节点ip
192.168.221.132 master
192.168.221.133 slave1
192.168.221.134 slave2
# sudo vi /etc/hostname
master
二、配置profile环境变量
#Java
export JAVA_HOME=/home/hadoop/jdk1.8.0_161
export PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jar
#Hadoop
export HADOOP_HOME=/home/hadoop/hadoop
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin
#Scala
export SCALA_HOME=/home/hadoop/scala
export PATH=$PATH:$SCALA_HOME/bin
#Anaconda
export PATH=/home/hadoop/anaconda3/bin:$PATH
export PYSPARK_DRIVER_PYTHON=/home/hadoop/anaconda3/bin/jupyter