一、安装python
sudo sh ./Miniconda3-py37_4.8.3-Linux-x86_64.sh
二、安装Spark
- 解压安装
sudo tar -zxvf spark-2.4.7-bin-without-hadoop.tgz -C /opt/bigdata/
cd /opt/bigdata/
sudo mv spark-2.4.7-bin-without-hadoop/ spark-2.4.7
sudo chown -R hadoop:hadoop spark-2.4.7/
- 配置环境变量
export SPARK_HOME=/opt/bigdata/spark-2.4.7
export PATH=$SPARK_HOME/bin:$PATH
source /etc/profile
- 修改spark配置文件
sudo cp spark-env.sh.template spark-env.sh
如下
export TERM=xterm-color # scala和java冲突时配置
export JAVA_HOME=/opt/Java/java-se-8u41-ri
export PYSPARK_PYTHON=/opt/miniconda3/bin/python
export SPARK_DIST_CLASSPATH=$(/opt/bigdata/hadoop-2.9.2/bin/hadoop classpath)
三、启动测试
sbin/start-master.sh -h 192.168.0.111
sbin/start-slave.sh spark://192.168.0.111:7077
访问 http://192.168.0.111:8080/ 可以进入spark管理界面。
四、安装pyspark
cd /opt/bigdata/spark-2.4.7/python
python setup.py install