1.1 搭建要求
真实的集群是需要部署在不同的服务器上的,但是在我们测试时同时启动很多个虚拟机内存会吃不消,所以我们通常会搭建伪集群,也就是把所有的服务都搭建在一台虚拟机上,用端口进行区分。
我们这里要求搭建一个服务器三个节点的Zookeeper集群(伪集群)。
1.2 准备工作
重新部署一台虚拟机作为我们搭建集群的测试服务器。
(1)安装JDK
(2)Zookeeper压缩包上传到服务器
(3)配置服务器编号
在/opt/module/zookeeper-3.5.6/zkData目录下创建myid文件。
[root@hadoop102 ~]# vim /opt/module/zookeeper-3.5.6/zkData/myid
在文件中添加与server对应的编号(注意:上下不要有空行,左右不要有空格)
2
1.3 配置集群
注意: zoo.cfg的clientPort配置项的值都为2181
(1)同步hadoop102主机上的zk到hadoop103、hadoop104主机
[root@hadoop102 ~]# xsync /opt/module/zookeeper-3.5.6
(2)分别在hadoop103、hadoop104上修改myid文件中内容为3、4
[root@hadoop103 ~]# vim /opt/module/zookeeper-3.5.6/zkData/myid
3
[root@hadoop104 ~]# vim /opt/module/zookeeper-3.5.6/zkData/myid
4
(3)在zoo.cfg配置文件中添加集群配置信息,使每个服务器都能知道集群中的服务器
# zk集群信息
server.2=hadoop102:2888:3888
server.3=hadoop103:2888:3888
server.4=hadoop104:2888:3888
配置参数解读
server.A=B:C:D
A 是一个数字,表示这个是第几号服务器;
集群模式下配置一个文件 myid,这个文件在 dataDir 目录下,这个文件里面有一个数据就是 A 的值,Zookeeper 启动时读取此文件,拿到里面的数据与 zoo.cfg里面的配置信息比较从而判断到底是哪个 server。
B 是这个服务器的地址;
C是这个服务器 Follower 与集群中的 Leader 服务器交换信息的端口;
D是万一集群中的 Leader 服务器挂了,需要一个端口来重新进行选举,选出一个新的Leader,而这个端口就是用来执行选举时服务器相互通信的端口。
1.4 启动集群
启动集群就是分别启动每个实例。
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
启动后我们查询一下每个实例的运行状态
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
先查询第一个服务(zookeeper-1),Mode为follower表示是跟随者(从)
再查询第二个服务(zookeeper-2),Mode为leader表示是领导者(主)
查询第三个(zookeeper-3),为跟随者(从)
1.5 模拟集群异常
(1)首先我们先测试如果是从服务器挂掉,会怎么样
把3号服务器停掉,观察1号和2号,发现状态并没有变化
# 关闭zookeeper-3服务器
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh stop
# 查看zookeeper-1,zookeeper-2服务器状态
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
由此得出结论,3个节点的集群,从服务器挂掉,集群正常,leader不变。
(2)我们再把1号服务器(从服务器)也停掉,查看2号(主服务器)的状态,发现已经停止运行了。
# 关闭zookeeper-1服务器
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh stop
# 查看所剩的zookeeper-2服务器状态
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
由此得出结论,3个节点的集群,2个从服务器都挂掉,主服务器也无法运行。因为可运行的机器没有超过集群总数量的半数。
(3)我们再次把1号服务器启动起来,发现2号服务器又开始正常工作了。而且依然是领导者。
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
(4)我们把3号服务器也启动起来,把2号服务器停掉,停掉后观察1号和3号的状态。
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh stop
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
发现新的leader产生了~
由此我们得出结论,当集群中的主服务器挂了,集群中的其他服务器会自动进行选举状态,然后产生新得leader
(5)我们再次测试,当我们把2号服务器重新启动起来启动后,会发生什么?2号服务器会再次成为新的领导吗?我们看结果
[root@hadoop103 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh start
[root@hadoop102 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
[root@hadoop104 ~]# /opt/module/zookeeper-3.5.6/bin/zkServer.sh status
我们会发现,2号服务器启动后依然是跟随者(从服务器),3号服务器依然是领导者(主服务器),没有撼动3号服务器的领导地位。
由此我们得出结论,当领导者产生后,再次有新服务器加入集群,不会影响到现任领导者。
1.6 zk集群启停脚本
在/root/bin 目录下创建一个zk.sh文件
[root@hadoop102 bin]# vim zk.sh
zk.sh文件内容
#!/bin/bash
case $1 in
"start"){
for i in hadoop102 hadoop103 hadoop104
do
echo ----------------- zookeeper $i启动 -----------------
ssh $i "/opt/module/zookeeper-3.5.6/bin/zkServer.sh start"
done
}
;;
"stop") {
for i in hadoop102 hadoop103 hadoop104
do
echo ----------------- zookeeper $i停止 -----------------
ssh $i "/opt/module/zookeeper-3.5.6/bin/zkServer.sh stop"
done
}
;;
"status"){
for i in hadoop102 hadoop103 hadoop104
do
echo ----------------- zookeeper $i状态 -----------------
ssh $i "/opt/module/zookeeper-3.5.6/bin/zkServer.sh status"
done
}
;;
esac
设置文件的权限
[root@hadoop102 ~]# chmod 777 zk.sh
启动zk集群,查看集群状态,关闭集群
集群脚本分发
[root@hadoop102 ~]# xsync /root/bin/zk.sh