Step1 搭建Hadoop集群
见 Hadoop-2.9.1/Ubuntu 16.04集群搭建 https://blog.csdn.net/weixin_41776345/article/details/81669780
Step2 安装Spark
Spark的安装和Hadoop的安装一样,在主节点上先安装配置完成以后,分发到其余的从节点即可
Spark下载地址:http://spark.apache.org/downloads.html
然后解压下载的tgz文件,并且重命名文件,删除压缩文件包,然后修改文件权限
tar -zxf spark-2.3.0-bin-hadoop2.7.tgz
mv spark-2.3.0-bin-hadoop2.7/ spark-2.3.0
rm spark-2.3.0-bin-hadoop2.7.tgz
sudo chown -R project ./spark-2.3.0/
在master节点上 /spark-2.3.0/conf 里进行配置
1)配置slaves文件,因为文件给出是slaves.template,使用需要我们使用 cp slaves.template slaves然后对slaves进行配置,替换localhost,添加worker的主机名
ccrfox143
ccrfox146
ccrfox150
2)配置spark-env.sh文件,同理需要 cp spark-env.sh.template spark-env.sh,然后对spark-env.sh进行配置
export SPARK_DIST_CLASSPATH=$(/home/project/hadoop-2.9.1/bin/hadoop classpath) #hadoop所在的位置
export HADOOP_CONF_DIR=/home/project/hadoop-2.9.1/etc/hadoop
export SPARK_MASTER_IP=172.16.0.140 #master节点的IP地址
3)配置 spark-2.3.0/sbin 下的 spark-config.sh 文件,在文件末尾添加
export JAVA_HOME=/home/project/jdk1.8.0_181
然后打包配置好的spark文件,将文件分发到各个节点上
tar -zcf ~/spark.tar.gz ./spark-2.3.0/
scp spark.tar.gz ccrfox143:/home/project/
然后在从节点上解压spark,并且修改权限
tar -zxf spark.tar.gz
rm spark.tar.gz
sudo chown -R project /home/project/spark-2.3.0/
在所有节点上配置环境变量 vim ~/.bashrc,然后 source ~/.bashrc 使环境变量生效
#Spark
export SPARK_HOME=/home/project/spark-2.3.0
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
Step3 启动和调试Spark
首先启动Hadoop集群
cd /home/project/hadoop-2.9.1/sbin
bash start-all.sh
然后先启动Spark的master节点
cd /home/project/spark/sbin
bash start-master.sh
然后在master节点启动slave,bash start-slaves.sh
在master中我们看到Master进程,Slave中看到Worker进程,我们的spark集群搭建成功~