3. Zookeeper的工作原理
3.1 选举制度
3.1.1 说明
- 基于节点在半数以上才能正常服务的要求,Zookeeper适合装在奇数台机器。
- Zookeeper没有在配置文件中指定leader和follower,而是使用算法(Paxos)在内部通过选举机制 来选择一个节点为leader,其他节点为follower。
3.1.2 开机启动时的选举过程
假设有五台服务器组成的 zookeeper 集群,它们的 id 从 1-5,同时它们都是最新启动的,也就是没有历史数据,在存放数据量这一点上,都是一样的。假设这些服务器依序启动,来看看会发生什么。
-
每个Server发出一个投票。由于是初始情况,ZK1和ZK2都会将自己作为Leader服务器来进行投票,每次投票会包含所推举的服务器的myid和ZXID,使用(myid, ZXID)来表示,此时ZK1的投票为(1, 0),ZK2的投票为(2, 0),然后各自将这个投票发给集群中其他机器。
-
接受来自各个服务器的投票。集群的每个服务器收到投票后,首先判断该投票的有效性,如检查是否是本轮投票、是否来自LOOKING状态的服务器。
-
处理投票。针对每一个投票,服务器都需要将别人的投票和自己的投票进行比较,规则如下
- 优先检查ZXID。ZXID比较大的服务器优先作为Leader。
- 如果ZXID相同,那么就比较myid。myid较大的服务器作为Leader服务器。
对于ZK1而言,它的投票是(1, 0),接收ZK2的投票为(2, 0),首先会比较两者的ZXID,均为0,再比较myid,此时ZK2的myid最大,于是ZK2胜。ZK1更新自己的投票为(2, 0),并将投票重新发送给ZK2。
-
统计投票。每次投票后,服务器都会统计投票信息,判断是否已经有过半机器接受到相同的投票信息,对于ZK1、ZK2而言,都统计出集群中已经有两台机器接受了(2, 0)的投票信息,此时便认为已经选出ZK2作为Leader。
-
改变服务器状态。一旦确定了Leader,每个服务器就会更新自己的状态,如果是Follower,那么就变更为FOLLOWING,如果是Leader,就变更为LEADING。当新的Zookeeper节点ZK3启动时,发现已经有Leader了,不再选举,直接将直接的状态从LOOKING改为FOLLOWING。
3.1.3 运行中的选举过程
- 变更状态。Leader挂后,余下的非Observer服务器都会讲自己的服务器状态变更为LOOKING,然后开始进入Leader选举过程。
- 每个Server会发出一个投票。在运行期间,每个服务器上的ZXID可能不同,此时假定ZK1的ZXID为124,ZK3的ZXID为123;在第一轮投票中,ZK1和ZK3都会投自己,产生投票(1, 124),(3, 123),然后各自将投票发送给集群中所有机器。
- 接收来自各个服务器的投票。与启动时过程相同。
- 处理投票。与启动时过程相同,由于ZK1事务ID大,ZK1将会成为Leader。
- 统计投票。与启动时过程相同。
- 改变服务器的状态。与启动时过程相同。
3.2 选举制度中的四个概念
-
serverid:服务器id
比如有三台服务器,编号分别为1,2,3。编号越大在选择算法中的权重越大
-
zxid:数据id
服务器中存放的最大数据ID。值越大说明数据越新,在选举算法中的权重越大
-
Epoch:逻辑时钟
也可以称之为每个服务器参加投票的次数。同一轮投票过程中的逻辑次数
优先级:Epoch > zxid >serverid
-
Server状态:选举状态
- LOOKING:竞选状态
- FOLLOWING:随从状态,同步leader状态,参与选票
- OBSERVING:观察状态,同步leader状态,不参与选票
- LEADER:领导者状态
3.3 Zookeeper的监听原理
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-wXSazICe-1587952493122)(image-20200427095305979.png)]
3.3.1 图解
1. 首先要有一个main()线程
2. 在main线程中创建Zookeeper客户端, 这时就会创建两个线程, 一个负责网络连接通信(connet),一个负责监听(listener)。
3. 通过connect线程将注册的监听事件发送给Zookeeper。
4. 在Zookeeper的注册监听器列表中将注册的监听事件添加到列表中。
5. Zookeeper监听到有数据或路径变化, 就会将这个消息发送给listener线程。
6. listener线程内部调用了process()方法。
3.3.2 用途
- 监听节点数据的变化: get /path watch
- 监听子节点增减的变化 : ls /path watch
补充:监听是一次性的,一次监听仅报告一次操作
3.4 写数据流程
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-xylBceN1-1587952493129)(image-20200427095256049.png)]
参考上图
- Client向Zookeeper的server1上写数据,发送一个写请求
- 如果server1不是leader,那么server1会把请求进一步转发给leader。
- 这个leader会将写请求广播给所有server。
- 各个Server写成功后就会通知leader。
- 当leader收到半数以上的server写成功的通知,就说明数据写成功了。写成功后,leader会告诉 server1数据写成功了。
- server1会进一步通知Client数据写成功了。这时就认为整个写操作成功。