目前官网最新版为2.4.4版本,鉴于稳定性,以及hadoop集群装的是2.7版本的,本次安装的是spark 2.3.3 hadoop2.7 的版本,大家可以根据自己的hadoop版本前往官网下载相应的安装包。
- 下载安装包:传送门 spark-2.3.3-bin-hadoop2.7.tgz
2.解压安装包到指定目录
tar -zxvf spark-2.3.3-bin-hadoop2.7.tgz -C /opt/bigdata
3. 如果登录的是root用户,想要使用普通用户启动spark,需要为解压的目录设置用户的访问权限,假如你已经有了一个叫hadoop的用户,hadoop的组:
chown -R hadoop:hadoop /opt/bigdata/spark-2.3.3-bin-hadoop2.7
4. ll 命令查看是否正确
5.修改配置文件:进入spark安装目录下的conf目录,前提是,你已经安装了jdk以及zookeeper
- 修改spark-env.sh
#将默认的模板重命名
mv spark-env.sh.template spark-env.sh
#编辑内容
vi spark-env.sh
#配置java的环境变量
export JAVA_HOME=/usr/java/jdk1.8.0_211-amd64
#配置zk相关信息
export SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=node1:2181,node2:2181,node3:2181 -Dspark.deploy.zookeeper.dir=/spark"
- 修改salves,配置worker节点
#将默认的模板重命名
mv slaves.template salves
#编辑内容
vim slaves
#指定spark集群的worker节点
node2
node3
6.拷贝安装目录到集群的其他机器(配置都一样),前提是你已经做好了集群的免密登录,没有的话,需要先配置免密登录!
scp -r spark node2:/opt/bigdata
scp -r spark node3:/opt/bigdata
7.修改环境变量,集群所有机器都需要配置环境变量
vi /etc/profile 或者 普通用户的家目录下 vi ~/.bash_profile
export SPARK_HOME=/opt/bigdata/spark-2.3.3-bin-hadoop2.7
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin
8.使环境变量生效
source /etc/profile 或者 source ~/.bash_profile
OK,到此,你的spark已经配置成功了。
9.先启动zk
10.启动spark,为避免与hadoop的start-all.sh 冲突,建议进入sbin目录启动脚本。默认在哪台机器启动,那台机器就是master节点
$SPARK_HOME/sbin/start-all.sh
11.也可以在其它节点启动备份主节点
$SPARK_HOME/sbin/start-master.sh
12.停止集群,在处于active Master主节点执行
$SPARK_HOME/sbin/stop-all.sh
14.停止备份主节点,在处于standBy Master主节点执行
$SPARK_HOME/sbin/stop-master.sh
15.想要进行spark测试,可以启动spark-shell
spark-shell --master local[N]
- local 表示程序在本地进行计算,跟spark集群目前没有任何关系
- N 它是一个正整数,表示使用N个线程参与任务计算
- local[N] 表示本地采用N个线程计算任务
好了,开始你的spark之旅吧~