因为我本地之前有安装过zookeeper和hadoop,所以这里就不讲这两个的安装了,如需安装,自行百度。
官网下载地址 http://spark.apache.org/downloads.html
这个官网很奇怪,有时候那个下拉选择版本的框,显示不出来。所以我翻墙下载了,翻墙了之后,可以正常显示了。
Spark我使用的是这个版本的 spark-3.0.1-bin-hadoop3.2.tgz,这里不需要安装scala了,因为spark包里面已经有了scala的依赖了。可以再jars目录下面找到scala的依赖。
安装完之后,上传到服务器,解压
tar -zxvf spark-3.0.1-bin-hadoop3.2
解压完成之后,进入conf目录,修改配置。
#进入 /conf 目录,拷贝配置样本进行修改:
#cp spark-env.sh.template spark-env.sh
#在 spark-env.sh 中添加以下三行内容:
#jdk地址
JAVA_HOME=/data/java/jdk1.8.0_11
#hadoop安装的完的etc目录,hadoop我安装的是3.1.2版本的
HADOOP_CONF_DIR=/data/hadoop/hadoop-3.1.2/etc/hadoop
#zookeeper信息配置,知道所在节点地址信息
SPARK_DAEMON_JAVA_OPTS="-Dspark.deploy.recoveryMode=ZOOKEEPER -Dspark.deploy.zookeeper.url=wumingkai002:2181,wumingkai003:2181,wumingkai004:2181 -Dspark.deploy.zookeeper.dir=/spark3.0"
因为我这里有两个主节点,所以启动的时候,要启两个主节点,然后注册到zk,如果其中一个主节点挂了,另一个备份主节点会用上。
#进入 /conf 目录,拷贝配置文件进行修改:
#cp slaves.template slaves
#在 slaves 中添加自己的集群主机名,把里面的localhost删掉,因为我这里有四个节点,001和002节点做主节点用,003和004节点做从节点。
wumingkai003
wumingkai004
修改保存完之后,把修改的东西拷贝到其他节点,这里我用的是for命令
for A in {2..4}; do scp -r /data/spark3.0 wumingkai00$A:/data/;done
拷贝完之后,进入sbin目录下面,执行start-all.sh脚本。启动spark集群
start-all.sh
启动成功之后,输入主节点ip:8080访问,这时候可以看到主节点的web页面。下面有两个worker节点的信息。
下面启动备份的主节点,然后进行访问,这里注意一下,启动一个备份的主节点,访问的端口是8081,可以看到备份的主节点,目前是等待的状态
我们时候kill -9 命令,杀掉之后启动的主节点的,然后等待一会,可以看到备份的主节点现在已经变成主节点了,并且下面有work节点的信息
自学大数据的路中,建了一个交流群,678513209。有转大数据的小伙伴,加群一起交流