zookeeper深入了解

西木风落

已于 2022-04-28 09:13:17 修改

阅读量2.4k

点赞数

分类专栏：中间组件文章标签： zookeeper zookeeper数据结构 zookeeper事务一致性 zk选举算法与zab协议 zookeeper脑裂

于 2022-04-26 23:39:34 首次发布

本文链接：https://blog.csdn.net/chenwiehuang/article/details/124334862

版权

中间组件专栏收录该内容

7 篇文章 1 订阅

订阅专栏

1. 什么是zookeeper

ZooKeeper是一个分布式的，开放源码的分布式应用程序协调服务，是Google的Chubby一个开源的实现，是Hadoop和Hbase的重要组件。

基于ZooKeeper的数据结构，Watcher，选举机制等可以实现数据的发布/订阅，软负载均衡，命名服务，统一配置管理，分布式锁，集群管理等功能。

Zookeeper 有三种运行模式：单机模式、伪集群模式和集群模式。

单机模式：这种模式一般适用于开发测试环境，一方面我们没有那么多机器资源，另外就是平时的开发调试并不需要极好的稳定性。

集群模式：一个 ZooKeeper 集群通常由一组机器组成，一般 3 台以上就可以组成一个可用的 ZooKeeper 集群了。组成 ZooKeeper 集群的每台机器都会在内存中维护当前的服务器状态，并且每台机器之间都会互相保持通信。

伪集群模式：这是一种特殊的集群模式，即集群的所有服务器都部署在一台机器上。当你手头上有一台比较好的机器，如果作为单机模式进行部署，就会浪费资源，这种情况下，ZooKeeper 允许你在一台机器上通过启动不同的端口来启动多个 ZooKeeper 服务实例，以此来以集群的特性来对外服务。

2. 为什么要使用zookeeper

2.1 利用zookeeper做全局配置管理

在实际业务系统开发中，会通过配置属性让业务逻辑更加丰富。常采用的方案包括：

将配置文件写入数据库，通过读取数据库更新配置；
利用Redis缓存做中间数据存储；
通过zookeeper做配置管理，将配置属性写入zookeeper；

为什么选用zookeeper做配置中心呢？主要是当配置属性发生变化的时候，期望对应的业务系统能第一时间感知到，做对应属性的更新。zookeeper有强一致性保障，数据容错性更强；更重要的是zookeeper自带的watch机制，非常适合当有数据变化时触发，数据库和redis都无法直接提供此能力。

2.2 统一命名服务

2.3 分布式锁

zookeeper致力于提供高性能、高可用、顺序一致性的分布式协调服务，保证数据最终一致性;主要实现包括：

高性能（简单的数据模型）
- 采用树形结构组织数据节点；
- 全量数据节点都存储在内存中；
- Follower 和 Observer 直接处理非事务请求；
高可用（构建集群）
- 半数以上机器存活，服务就能正常运行
- 自动进行 Leader 选举
顺序一致性（事务操作的顺序）
- 每个事务请求，都会转发给 Leader 处理
- 每个事务，会分配全局唯一的递增id（zxid，64位：epoch + 自增 id）
最终一致性
- 事务提交后，一定会被半数以上的follower节点看到

3. zookeeper数据结构

3.1 节点类型

ZooKeeper的数据结构，跟Unix文件系统非常类似，可以看做是一颗树，每个节点叫做ZNode。每一个节点可以通过路径来标识。结构如下：

每个节点在 Zookeeper 中叫做 Znode，并且其有一个唯一的路径标识；节点 Znode 可以包含数据和子节点。Znode分为四种类型：

临时(Ephemeral)：客户端和服务端断开连接后，临时Znode节点会自动删除
临时顺序(EPHEMERAL_SEQUENTIAL): 创建节点的时候有顺序，会依次递增
持久(Persistent)：客户端和服务端断开连接后，持久Znode节点不会删除。
持久顺序(PERSISTENT_SEQUENTIAL): 是持久性节点一种，只是创建节点的时候每个节点有序，遵循单调递增；

EPHEMERAL 类型的节点不能有子节点；

3.2 数据访问

每个znode节点存储的数据都具有原子操作性，也就是说这个节点的数据要么同时被写入，要么都没有写入；读数据的时候要么同时读到，要么都读不到。另外，每一个节点都拥有自己的ACL列表，限定了用户对目标节点可以执行的操作，包括CREATE: 创建子节点的权限；READ: 获取节点数据和子节点列表的权限；WRITE: 更新节点数据的权限；DELETE: 删除子节点的权限；ADMIN: 设置节点ACL的权限。

注意：Znode 中的数据可以有多个版本，可以根据版本号访问对应节点数据。

4. zookeeper watcher监听机制

ZooKeeper允许用户在指定节点上注册一些Watcher，当数据节点发生变化（数据内容发生变化或者子节点增减变化）的时候，ZooKeeper服务器会把这个变化的通知发送给感兴趣的客户端。Watcher 机制包括三个角色：客户端线程、客户端的 WatchManager 以及 ZooKeeper 服务器。具体过程有：

客户端向 ZooKeeper 服务器注册一个 Watcher 监听，
把这个监听信息存储到客户端的 WatchManager 中
当 ZooKeeper 中的节点发生变化时，会通知客户端，客户端会调用相应 Watcher 对象中的回调方法。

客户端回调 Watcher：

客户端在和 ZooKeeper 建立连接时，会启动 sendThread 和 eventThread 线程。sendThread 线程负责发送请求给服务端，同时也接收服务端发送过来的响应，当它判断到响应中的 XID 标识为 -1，便将它作为一个通知类型的响应，将响应中的信息进行序列化，交给 eventThread 线程处理。eventThread 会根据响应内容判断该通知对应的 Watcher 类型，从 ZKWatchManager 中取出所有相关的 Watcher，然后放到 waitingEvents 队列中，该队列时一个待处理 Watcher 的队列，eventThrad 每次从中取出一个 Watcher，然后进行串行同步处理，就是依次调用队列中 Watcher 的 process 的方法。

Watcher 特性总结：

一次性：不管是服务端还是客户端，当 Watcher 触发之后，就会将从本地内存中去除掉，如果还需要监听的话就需要反复注册。
轻量：客户端发送给服务器的请求中只是表明该请求是对哪个路径的监听，服务端给客户端响应也只是告诉它监听的节点或子列表发生变化了，具体的变化信息需要重新去服务端获取，这个轻量的设计使得网络带宽和服务器的压力大大减小了。

5. zookeeper的选举机制

zookeeper中存在三种服务器角色，分别是Leader，Follower以及Observer，其中Observer仅仅作为一个监控协调者的作用，并不参与zookeeper对外提供服务以及zookeeper的选举。

服务器节点状态（每个节点有且只有一个状态）：

looking：寻找leader状态，当前集群没有leader，进入leader选举流程。
following：跟随者状态，接受leading节点同步和指挥。
leading：领导者状态。
observing：观察者状态，表名当前服务器是observer。

在讲选举过程之前，先介绍几个关键概念：

事务编号zxid：zk每一次事务操作都会产生唯一一个64位长度的zxid，其中前32是epoch，后32位是事务的计数序号；
纪元epoch：每一次选主完成后，leader都会产出自己的epoch；
myid：zk节点在加入集群的时候，会配置节点服务器自由的一个ID号，默认是 /tmp/zookeeper/myid.myid 在整个集群中，各个节点之间是不能重复的.

ZAB（Zookeeper Atomic Broadcast），是为zk专门设计的一种支持崩溃恢复的原子广播协议，是Zookeeper保证数据一致性的核心算法。Zab借鉴了Paxos算法，但又不像Paxos那样，是一种通用的分布式一致性算法。

ZAB协议包括两种基本的模式，分别是：

消息原子广播（保证数据一致性）
崩溃恢复（解决2pc算法的单点问题）

整个集群启动过程中，或者当 Leader 服务器出现网络中断、崩溃退出或重启等异常时，ZAB协议就会进入崩溃恢复模式，选举产生新的Leader。当选举产生了新的 Leader，同时集群中有过半的机器与该 Leader 服务器完成了状态同步（即数据同步）之后，ZAB协议就会退出崩溃恢复模式，进入消息广播模式。这时，如果有一台遵守ZAB协议的服务器加入集群，因为此时集群中已经存在一个Leader服务器在广播消息，那么该新加入的服务器自动进入恢复模式：找到Leader服务器，并且完成数据同步。同步完成后，作为新的Follower一起参与到消息广播流程中。

进一步拆分，在崩溃恢复拆分为选举阶段和数据同步阶段，消息广播对应消息广播阶段。

5.1 选举阶段

服务启动期间的选举

每个节点都会对自己进行投票，然后把投票信息广播给集群中的其他节点
节点接收到其他节点的投票信息，然后和自己的投票进行比较，首先zxid较大的优先，如果zxid相同那么则会去选择myid更大者，此时大家都是LOOKING的状态
投票完成之后，开始统计投票信息，如果集群中过半的机器都选择了某个节点机器作为leader，那么选举结束
最后更新各个节点的状态，leader改为LEADING状态，follower改为FOLLOWING状态

服务运行期间的选举

如果选举出来的leader节点宕机了，那么运行期间就会重新进行leader的选举。

leader宕机之后，非observer节点都会把自己的状态修改为LOOKING状态，然后重新进入选举流程
生成投票信息(myid,zxid)，同样，第一轮的投票大家都会把票投给自己，然后把投票信息广播出去
接下来的流程和上面的选举是一样的，都会优先以zxid，然后选择myid，最后统计投票信息，修改节点状态，选举结束

5.2 数据同步阶段

整个同步过程主要是leader将自身proposal事务发送给从属于自身的大多数follower，在确认大多数follower接收到事务消息后，通知他们更新事务，保证follower和leader事务一致。

第一阶段 NewLeader：NewLeader 将新 epoch 和 S' 以 NewLeader(e', S')的消息形式发送给所有过半 (Quorum) 的 Follower。 S' 代表 NewLeader.history。
第二阶段 Ack-LD：当 Follower 接收到 NewLeader(e', S') 消息后，
1. 如果 Follower 的 epoch 等于 e'，确定是该主的子民，Follower 将会执行事务应用操作，将接收 S' 中的所有事务 Proposal，注意只是接收。
2. 如果 Follower 的 epoch 不等于 e'，即不是这一轮的 Follower，直接进入下一代循环。
3. Leader 在接收到过半的 Follower 的 Ack-LD 消息后，发送 Commit 消息所有的 Follower，之后进入下一阶段即 Broadcast（消息广播）。
第三阶段 Commit-LD：在收到 Leader 的 Commit 消息后，按顺序依次调用 abdeliver(<v, z>) 处理 S' 的每一个事务，随后完成这一阶段。

数据同步包含3个主要值和4种形式：

PeerLastZxid：Learner服务器最后处理的ZXID
minCommittedLog：Leader提议缓存队列中最小ZXID
maxCommittedLog：Leader提议缓存队列中最大ZXID

直接差异化同步 DIFF同步

如果PeerLastZxid在minCommittedLog和maxCommittedLog之间，说明Learner服务器还没有完全同步最新的数据。

首先Leader向Learner发送DIFF指令，代表开始差异化同步，然后把差异数据（从PeerLastZxid到maxCommittedLog之间的数据）提议proposal发送给Learner
发送完成之后发送一个NEWLEADER命令给Learner，同时Learner返回ACK表示已经完成了同步
接着等待集群中过半的Learner响应了ACK之后，就发送一个UPTODATE命令，Learner返回ACK，同步流程结束

先回滚再差异化同步 TRUNC+DIFF同步

Leader刚生成一个proposal，还没有来得及发送出去就宕机了，重新选举之后作为Follower，但是新的Leader没有这个proposal数据。

这个时候follower多出来的数据要先进行回滚，回滚到和新的leader最接近的PeerLastZxid的事务，leader会先发送一个TRUNC命令，然后再执行差异化DIFF同步。

仅trunc同步

如果follower的PeerLastZxid大于maxCommittedLog的场景，新的leader会仅仅发送trunc命令，将follower的数据回滚到与leader一致；

全量同步 SNAP同步

适用于两个场景：

PeerLastZxid小于minCommittedLog
Leader服务器上没有提议缓存队列，并且PeerLastZxid不等于Leader的最大ZXID

这两种场景下，Leader将会发送SNAP命令，把全量的数据都发送给Learner进行同步。

5.3 消息广播阶段

消息广播流程：leader收到客户端的数据后，通知所有follower；follower收到事务处理消息后，保存事务记录到history中，并且返回响应给leader，告知已收到写事务；leader收到大多数follower的响应后，就会发起提交，通知所有follower去提交事务。然后重复上述流程，直到leader出现异常。

第一阶段 Propose：Leader 收到来自客户端新的事务请求后，会生成对应的事务 Proposal，并根据 zxid 的顺序（递增）向追随自己的所有 Follower 发送 P<epoch, <v, z>>。
第二阶段 Ack：Follower 根据收到消息的次序来处理这些 Proposal，并追加到 H 中去，然后反馈给 Leader。
第三阶段 Commit：一旦 Follower 收到来自 Leader 的 Commit(epoch, <v, z>)消息，将调用 abdeliver(<v, z>) 提交事务 <v, z>。需要注意的是，此时 Follower 必定提交了 z' < z 之前的事务。

在进入消息广播阶段后，Leader 会为每一个 Follower 分配一个 FIFO 形式的队列进行通信，确保了同一时刻一个 Follower 只能和一个 Leader 保持同步，Leader 和 Follower 彼此之间通过心跳检测来感知。这个过程会一直持续，直到