首先,你的几台电脑都装好了Hadoop,如果要搭建Spark独立集群模式,则需要每台电脑都装上Spark。
2) Spark 压缩包地址:点击打开链接
六,设置 /home/hadoop/software/spark-2.3.0/conf/里的 slaves文件,这个文件是slaves.template的副本,修改文件名。
八, 启动spark集群
一, 下载 Maven,Spark 压缩包
我是在主机Master下载了Maven,Spark 压缩包,
1) Maven压缩包下载地址:点击打开链接
首先进入apache官网
点project,
点 Maven,
点Download,
2) Spark 压缩包地址:点击打开链接
hadoop@Master:~$ ssh -X Slave2
二, 解压 Maven 和 Spark 压缩包
三, 设置环境变量
hadoop@Slave2:~$ cd /etc
hadoop@Slave2:/etc$ sudo gedit environment
SPARK_HOME=/home/hadoop/software/spark-2.3.0
M2_HOME=/home/hadoop/software/apache-maven-3.5.2
在PATH后面添加 :/home/hadoop/software/spark-2.3.0/bin:/home/hadoop/software/apache-maven-3.5.2/bin
(注意每个·路径用冒号隔开)
电脑重启:
hadoop@Slave2:sudo reboot
四, 设置Maven的虚拟机参数(以防止可能出现内存溢出)
export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M"
五, 用Maven安装编译Spark
mvn -Pyarn -Phadoop-2.6 -Dhadoop.version=2.7.3 -DskipTests clean package
六,设置 /home/hadoop/software/spark-2.3.0/conf/里的 slaves文件,这个文件是slaves.template的副本,修改文件名。
Slave0
Slave1
Slave2
七,同步slaves文件到各个节点
在/home/hadoop/software/spark-2.3.0/conf/目录下执行:
/usr/local/sbin/xcp.sh slaves ~/software/spark-2.3.0/conf/
八, 启动spark集群
启动所有work的进程:
hadoop@Master:~/software/spark-2.3.0/sbin$ ./start-master.sh
hadoop@Master:~/software/spark-2.3.0/sbin$ ./start-slaves.sh
查看spark的web信息: http://Master:8080
如果要启动单个节点,则:
./start-slave.sh spark://Slave1:7077
jps
./stop-slave.sh