ZooKeeper之Leader选举

最新推荐文章于 2023-03-07 22:34:46 发布

carson0408

最新推荐文章于 2023-03-07 22:34:46 发布

阅读量312

点赞数 1

分类专栏： ZooKeeper 文章标签： ZooKeeper

本文链接：https://blog.csdn.net/carson0408/article/details/84190109

版权

ZooKeeper 专栏收录该内容

5 篇文章 0 订阅

订阅专栏

Leader选举是ZooKeeper中最重要的技术之一，也是保证分布式数据一致性的关键所在。

1.leader选举

Leader选举主要分为服务器启动时期的Leader选举和服务器运行期间的Leader选举。以下是两种情况的选举大致步骤。

服务器启动时期的Leader选举

1.每个Server会发出一个投票：投票包含要选举的服务器的SID和ZXID等信息，将这个投票发送给集群中其它所有机器。

2.接收来自各个服务器的投票：每个服务器都会接收来自其它服务器的投票。集群中的每个服务器在接收到投票后，首先会判断该投票的有效性，包括检查是否是本轮投票、是否来自LOOKING状态的服务器。

3.处理投票：在收到来自其它服务器的有效投票后，针对每一个投票，服务器都需要将别人的投票和自己的投票按规则进行投票。

4.统计投票：每次投票后，服务器都会统计所有投票，判断是否已经有过半的及其接收到相同的投票信息，确认Leader。

5.改变服务器状态：一旦确定了Leader，每个服务器就会更新自己的状态：如果是Follower，那么就变更为FOLLOWING，如果是Leader，就变更为LEADING。

服务器运行期间的Leader选举

这种情况只有在原有的Leader服务器挂了，才会进入新一轮的选举。大致流程如下：

1.变更状态：当Leader挂了之后，余下的非Observer服务器（Observer服务器不参与投票，Observer服务器的主要作用就是为了缓解读的压力）都会将自己的服务器状态变更为LOOKING，然后开始进入Leader选举流程。

2.每个Server会发出一个投票。

3.接收来自各个服务器的投票。

4.处理投票。

5.统计投票。

6.改变服务器状态。

观察上面两种情况的流程可以看出，两者就是第一步存在不同，运行期间进入选举，需要进行状态的变更。

2.Leader选举的算法分析与具体实现

Leader选举算法主要是PK阶段的实现。因为投票信息包含了两个最基本的信息：推选的服务器的SID和ZXID，分别代表了被推选服务器的唯一标识和最新事务ID.当集群中每台机器发出自己的投票后，也会接收到来自集群中其它机器的投票。每次对于收到的投票的处理。

1.如果接收到的投票的ZXID大于当前机器的ZXID，则将接收到的投票变更成自己的投票再次发出去。

2.如果接收到的投票的ZXID小于当前机器的ZXID，不作任何变更。

3.如果两者的ZXID相等，则选择SID大的作为Leader。

以上是Leader选举算法的核心规则，以下便是该算法在ZooKeeper中是如何实现的。

首先，先了解一下服务器的几个状态：

LOOKING：寻找Leader状态。

FOLLOWING：跟随者状态，表明当前服务器角色是Follower

LEADING：领导者状态，表明当前服务器角色是Leader。

OBSERVING：观察者状态，表明当前服务器角色是Observer。

在Leader选举过程中，QuorumCnxManager负责各台服务器之间的底层Leader选举过程中的网络通信。每台服务器启动的时候，都会启动一个QuorumCnxManager。

消息队列

QuorumCnxManager内部维护了一系列的队列和集合。

recvQueue:消息接收队列，用于存放那些从其它服务器接收的消息。

queueSendMap：消息发送队列，是一个Map，key为服务器的SID，值分别为SID对应的机器分配的一个单独队列。

senderWorkerMap：发送器集合。key为服务器的SID，值为每个服务器对应的SendWorker消息发送器。

lastMessageSent：最近发送过的消息集合，这个集合为每个SID保留最近发送过的一个消息。

消息接收与发送

首先ZooKeeper集群中的所有机器需要两两建立起网络连接。开启端口监听后，ZooKeeper就不断地接收到来自其它服务器的"创建连接"请求，在接收到其它服务器的TCP连接请求时，会交由receiveConnection函数来处理。为了避免两台机器之间重复地创建TCP连接，ZooKeeper设计了一种TCP连接的规则：只允许SID大的服务器主动和其它服务器建立连接，否则断开连接。建立起连接之后，就会根据远程服务器的SID来创建相应的消息发送器SendWorker和消息接收器RecvWorker，并启动他们。

ZooKeeper会为每个远程服务器分配一个RecvWorker，而每个RecvWorker从这个TCP链接中读取消息，并将其保存到recvQueue队列中。同时，ZooKeeper为每个远程服务器单独分配了消息发送器SendWorker，每个SendWorker不断地从对应的消息发送队列中获取出一个消息发送，并将这个消息放入lastMessageSent中来作为最近发送过的消息。注意：如果ZooKeeper发现针对当前远程服务器的消息发送队列为空，那么这个时候需要从lastMessageSent中取出一个最近发送过的消息来进行再次发送。

而进行选举的核心算法是基于TCP的FastLeaderElection算法。WorkerReceiver不断地从QuorumCnxManager中获取出其它服务器发来的选举消息，并将其转换成一个选票，然后保存到recvqueue队列中去。在选票的接收过程中，如果发现该外部投票的接收过程中，如果发现该外部投票的选举轮次小于当前服务器，就直接忽略这个外部投票，同时立即发出自己的内部投票；当前服务器不是LOOKING状态，忽略这个外部投票，将Leader信息以投票的形式发送出去；如果接收到的消息来自Observer服务器，就忽略该消息，并把自己当前的投票发送出去。而WorkerSender会不断地从sendqueue队列中获取待发送的选票，并将其传递到底层QuorumCnxManager中去。然后根据对应的接收到的选票按照规则进行处理，直到选出Leader。