Zookeeper理解---ZAB协议

最新推荐文章于 2024-06-17 10:33:08 发布

生病的毛毛虫

最新推荐文章于 2024-06-17 10:33:08 发布

阅读量274

点赞数

分类专栏：分布式文章标签： java 分布式 zookeeper

本文链接：https://blog.csdn.net/liaojiamin0102/article/details/106098035

版权

分布式专栏收录该内容

31 篇文章 0 订阅

订阅专栏

ZAB协议

Zookeeper并不是完全采用Paxos算法，而是使用了一种称为Zookeeper Atomic Broadcast（ZAB，Zookeeper原子消息广播协议）作为数据一致性的核心算法，依据此算法来实现分布式数据一致性的解决。他是一种特别为Zookeeper设计的奔溃可恢复的原子消息广播算法。
ZAB协议的核心是定义了对应那些会改变Zookeeper服务器数据状态的师傅请求的处理方式：
- 所有事务请求必须有一个全局唯一服务器来协调处理，这样的服务器被称为leader服务器
- 其他服务器成为follower服务器，leader服务器负责讲一个客户端事务请求转换成一个事务Proposal（提议），并将改Proposal分发给集群中所有Follower服务器
- leader服务器等待所有Follower反馈，等待超过半数Follower进行了正确反馈
- leader就会再次向所有Follower发出Commons消息，要求将前一个Proposal进行提交

协议介绍

ZAB包括两种基本模式：
- 奔溃恢复：当整个服务框架启动过程中，或者leader节点出现网络故障或者崩溃退出与重启等异常情况时候，ZAB协议会进入恢复模式进行选举产生新的Leader服务器，当选出来Leader并且同步了半数以上的Follower节点状态（状态同步就是数据同步）后，ZAB才退出恢复模式
- 消息广播：过半数Follower都与Leader同步完成后，整个服务框架就可以进入消息广播模式了。但一台同样遵循ZAB协议的节点加入后，此时已经有一个Leader节点，新加入的服务会自觉进入恢复模式，同步数据后加入广播流程
- Leader节点作用在于接受客户端事务请求后，会生成对应的事务提案并发起一轮广播协议，如果集群中其他节点先收到客户端事务请求，他会转发给leader节点
关键字：过半数节点

消息广播

ZAB协议的消息广播过程是使用的原子广播协议，类似一个二阶段提交的过程，上面一节提到过，就如下图中所示
与二阶段提交不同的是，ZAB的提交过程移除了中断逻辑，也就是不存在应为单个节点没回应ACK而中断广播的情况，所有Follower要么正常反馈，要么抛弃leader服务器，并且只需要过半数的Follower服务器访客ACK后就开始提交事务Proposal，而不需要所有。这种情况有弊端：无法处理leader崩溃带来的数据不一致问题（恢复模式解决此问题），并且整个消息广播协议是有FIFO特性的TCP协议来进行网络通信，能保证消息发送的顺序

顺序性保证

因为只有Leader服务器负责生产对应Proposal来进行广播，并且广播之前，leader会为每一个Proposal分配一个全局唯一递增事务ID（即ZXID）。由此递增ID就可以保证我们每一个Proposal严格按照ZXID顺序来进行处理发送即可
处理好了leader发送顺序，Follower如何保证接受到顺序：广播过程Leader会为每一个Follower分配一个单独队列，依次将Proposal放入队列，并且依据ZXID顺序FIFO策略进行消息发送，每个Follower接受到事务Proposal会以事务日志形式写入本地磁盘，成功写入后反馈给Leader服务器一个Ack响应。
Leader收到超半数ACK后，广播一个Commit消息给所有Follower服务器以通知进行事务提交，同事Leader自己也完成Commit。

奔溃恢复

Leader节点奔溃后需要触发选举，选出新Leader，并让所有节点能够快速的感知到新的Leader服务器是哪个

基本特性

崩溃恢复可能出现两种数据不一致的隐患，针对这两种情况ZAB需要保证的特性：
情况一： ZAB协议需要确保已经在Leader服务器上提交的服务最终被所有服务器都提交
事务在Leader服务器上被提交了，并且已经得到过半Follower服务器的ACK反馈，但在Commit消息发送给所有Follower机器之前Leader服务器挂了，如下图：
上图leader是Server1，已经广播消息P1,P2,C1,P3和C2，当leader将C2（C2 是Commit of proposal2的缩写）发出后崩溃，此时ZAB协议需要保证Proposal2最终能在所有服务器上被提交
情况二：ZAB需要确保丢弃那些只在Leader服务器上被提出的事务。
与之前相反的情况，奔溃恢复过程中出现一个需要被丢弃的案例，那么恢复后需要跳过次事务：
上图Leader服务器Server1 提出一个事务Proposal3后就奔溃，其他follower都没有收到这个事务，当Server1恢复再次加入集群，ZAB需要确保丢弃这个Proposal3

Leader选举

根据以上两种情况确保提交已经被Leader提交的事务Proposal同时丢弃被跳过的事情，需要ZAB必须有这样的Leader选举算法：
- 保证选举出来的Leader服务器拥有集群中所有机器最高编号（最大ZXID）事务Proposal，那么可以把这这个新选举出来的Leader一定具有所有已经提交的案例，并且可以省去服务器检查proposal的提交和丢弃工作的这部操作，所有事务按最高ZXID节点拥有的数据为准。

数据同步

Leader选举后，Leader服务器为每一个Follower服务器准备一个队列，将那些没有被Follower服务器同步的事务以Proposal消息的方法逐个发给Follower服务器，并且在每个Proposal消息后紧接着发一个Commit消息，标识已经提交。等同步完成所有消息并且将数据应用到本地数据库中后，leader会将Follower服务器加入到真正的可用Follower列表，并且开始之后的流程。

丢弃数据

如何处理需要被丢弃的Proposal，ZAB协议变化ZXID设计上解决这个问题：
ZXID是一个64位的数据，低32位是一个单调递增的计数器，针对每个事物请求计数器+1操作，高位32位代表Leader周期epoch的编号，每单选举产生一个新的Leader服务器，就会从Leader服务器上去除其本地日志中最大事物Proposal的ZXID，
并从该ZXID中解析出上一次的epoch值，然后在这个基础上+1，就用此编号作为新的epoch，就相当于每一个Leader都递增1 的一个策略。ZAB协议通过epoch编号来区分Leader周期变化策略，能有效避免不同Leader服务器错误使用相同ZXID变化踢出不一样事务Proposal的异常情况，对于识别崩溃后在恢复之后生成的Proposal非常有帮助。

结论

基于上面的策略，当一个包含上一个Leader周期中没提交的事务Proposal的服务器复活的时候，肯定无法成为Leader，因为当前集群中包含一个Quorum集合，该集合中一定包含了更高epoch的事务Proposal，因此当前复活的节点事务Proposal肯定是旧的，无法成为Leader，当加入集群后，只能以Follow角色链接Leader服务器，接着Leader会根据自己服务器上最后被提交的Proposal来和Follower的Proposal对比，接着会按当前Leader的匹配要求同步当前Leader的数据（也就相当于回退）到一个确实已经被集群中过半集群提交的最新事务Proposal。

深入ZAB协议

上面部分介绍类ZAb协议大体内容以及实际运行中消息官博和奔溃恢复这两个基本模式。以下从系统模型，问题描述，算法描述，运行分析深入理解ZAB协议

系统模型

分布式系统模型中我门将每个server看作是一个进程p，那么可以用集合∏={P1,P2,…,Pn}来表示分布式系统，每个进程都具有格子的存储设备，就好比缓存隔离，个进程直接互相通信来实现消息传递。每个进程都肯奔溃或重启，奔溃我们称为down踢出集合∏，恢复存活状态我们称为up重新加入∏，只要∏ 集合中有超过半数的是up状态就可以进行消息广播，我们将这样一个自集合称为Quorum（上文提到过）之后用Q表示，并假设Q已经存在满足以下：

//存在任意Q Q是 ∏ 的子集
∧ ∀Q，Q ⊆ ∏
//存在任意时候的Q1 Q2，他们的交集不等于空集合（此处的意义在于Q1或Q2 任意一个都超过半数，应此不管如何去交集都能得到一个子集合，极端情况是正好半数多一个元素的情况）
∧ ∀Q1和Q2， Q1∩Q2≠∅

完整性

进程P_j如果收到来自进程P_i的消息m，那么p_i一定发送来消息m

前置性

进程P_j收到来消息m，那么存在这样的消息m’：如果消息m’ 是消息m的前置，那么P_j务必先收到m’，这种关系表示：m’ < m

问题描述

Zookeeper需要解决一系列诸如可靠配置存储，运行时状态记录等分布式协调服务，因此必须具备高吞吐量，低延迟特性，能很好的在高并发下完成分布式数据一致性处理，同时能优雅处理运行时故障，快速恢复
ZAB核心是只有一个主进程，如果主进程挂了就重选，主进程选举与消息广播密切相关。随着时间推移可能出现无限多个主进程并构成一个主进程序列：P_1，P_2，P_3…P_e-1,P_e其中P_e ⊆ ∏ ,e表示主进程序列好吗，我们这里称他为主进程周期。
对于以上序列中任意一个如果存在e < e’，那么我们就说P_e 是P_e’ 之前的主进程，使用 P_e < P_e’ ,他门是同一个进程只不过是不同周期而已

主进程周期

用以上 P_e < P_e’ 的案例来解释，就比如进程P_e周期中主节点是L_e，此时主节点L_e 挂掉了，重新选出L_e’（e’=e+1）就得到了P_e’，其实是同一个进程只是表示他在不同的Leader周期下而已，我们表示为e < e’

事物

几个概念，我们假设各个进程中有一个transactions(v,z)这样的函数，用来实现主进程堆状态变更的广播，其中参数v：事物内容，z：事物表示，而每一个事物表示z=<e,c>,e表示进程周期，c表示周期内事物技术，也就是我们上文中提到的epoch(z)表示事物标识中的主进程周期epoch，counter(z)表示事务计数器
每个新事务c都递增，实际运行中事务z 优与事务 z’ ，有两种情况：
- epoch(z) < epoch(z’) ：z是上一个主进程周期中的事务，z’是重新选举后的事务
- epoch(z) = epoch(z’) 且 counter(z) < counter(z’) 同一个主进程周期，但是z’事务序列号更大

算法描述

ZAB协议注意包括消息广播和崩溃恢复，进一步可以分三个阶段：发现（Discovery），同步（Synchronization），广播（Broadcast），先定义如下专用标识和属于

术语名	说明
F.p	Follower f处理过的最后一个事务Proposal
F.zxid	Follower f处理过的历史事务Proposal中最后一个Proposal的事务表示ZXID
h_f	每一个Follower f通常都已经处理（接受）了不少事务Proposal，并且会有一个针对已经处理过的事务的集合，将其表示为Hf，表示Follower f已经处理过的事务的序列
I_e	初始化历史记录，在某个主进程周期epoch中，当准Leader完成阶段一之后，此时他的h_f就被标记为I_e

阶段一：发现

主要是Leader选举过程，用于分布式进程中选举主进程，准Leader L，和Follower F工作流程：（姑且认为Leader L是随机出来的）
- 步骤F.1.1 Follower F将自己最后接受的事务Proposal的epoch值CEPOCH(F.p)发送给准Leader L
- 步骤L.1.1 当接受来自过半的Follower的Cepoch(F.p)消息后，准Leader L会生成NEWEPOCH(e’)，这个epoch的值e’ 是Leader L从CEPOCH(F.p)消息中选取的最大epoch，然后对其+1得到e’(就是获取最大一个ZXID的值从中得到epoch，然后在+1)
- 步骤F1.2 当Follower 接受到来自准Leader L的NEWEPOCH(e’)消息后，如果其检测到当前CEPOCH(F.p)小于e’，那么就将CEPOCH(F.p)=e’，同时向这个准Leader L反馈Ack消息。这个反馈消息（ACK-E(F.p, h_f)）,包含当前该Follower的epoch(F.p)也就是最后一个事务的信息，以及该Follower的历史事务Proposal列表：h_f
当Leader L接受到来自过半Follower的确认消息Ack后，Leader L就会从这过半服务器中选取出一个Follower F，使用他的I_e最为初始化事务结婚I_e’
关于这个Follower F的选取对于Quorum中其他任意一个Follower F’ ，F需要满足以下两个条件中的一个：

//任意Follower F'的epoch主节点周期值小于 Follower F主节点周期值（主节点周期值也就是Leader节点序列号每次选举+1这个）
CEPOCH(F'.p) < CEPOCH(F.p)
//如果两节点Follower F与Follower F'的epoch值相同也就是在同一个主节点周期，那么我们比较Follower F'处理的最后一个事务的ZXID要小于 选出来的Follower F处理的最后一个事务的ZXID，也就是我们选出来的必然是up集合中拥有最大ZXID事务的Follower节点，或者两个都相同则都可以是Leader列表的备选
(CEPOCH(F'.p) = CEPOCH(F.p)) & ( F'.zxid < F.zxid 或 F'.zxid = F.zxid)

阶段二：同步

发现流程后，进入同步节点，此时Leader L与Follower F流程如下：
- L.2.1 Leader 会将e’和I_e’以NEWLEADER(e’, I_e’)消息的形式发送给Quorum中的Follower（将新的epoch主节点序列号和最全的事务列表同步）
- 步骤F.2.1 当Follower接受到来自Leader L的NEWLEADER(e’, I_e’)消息后，如果Follower发现CEPOCH(F.p)≠ e’，那么直接跳过进入下一轮循环因为此时Follower 发现自己还在上一轮，或者更上一个的同步中，因为需要在发现阶段就已经将epoch修改为e’，他可能还在发现阶段属于另外一半还没收到Leader L的NEWEPOCH(e’)消息的节点
- 如果CEPOCH(F.p) = e’ ,那么Follower会执行事务应用操作，具体的对每一个事务Proposal:<v, z > ⊆ I_e’， Follower都会接受<e’, <v, z>>。最后Follower会反馈给Leader，表示字节已经接受并处理来所有I_e’中的事务，（此处的意思是Leader L节点将最新的一份Proposal列表的信息以及最新的epoch数据发送给每一个Follower节点让他去同步修改，如果Follower中的Proposal是在其中，那么我就将之前Proposal里面的epoch值也就是e修改为新的epoch值也就是e’）
- 步骤L.2.2 当Leader 接受到来自过半Follower 针对NEWWLEADER(e’, I_e’)的反馈消息后，就会向所有Follower发送消息Commit，至此Leader 完成阶段二
- 步骤F.2.2 当Follower收到来自Leader的Commit后，就会一次处理并提交所有在I_e’中为未理的事务，至此Follower完成阶段二

阶段三：广播

完成同步后ZAB开始正式工作，接受客户端新事务请求，进行广播流程
步骤L.3.1 Leader L接受到客户端新的事务请求，会生成对应的事务Proposal，并且根据ZXID顺序向Follower发送提案<e’, <v, z>>，其中epoch(z) = e’，z就是ZXID，64位，低32 是Proposal事务序列号，高32位是Leader周期的epoch序列号
步骤F.3.1 Follower根据消息接收先后顺序处理来自Leader事务的Proposal，并将他们追加到h_f中去，之后在反馈给Leader
步骤L.3.1 当Leader接收到来自过半Follower针对事务Proposal<e’, <v, z>>的Ack消息后，就发送Commit<e’, <v, z>>消息给所有Follower，要求他们进行事务的提交
步骤F.3.2 当Follow F接受到来自Leader的Commit<e’, <v, z>> 就会开始提交Proposal<e’, <v, z>>，需要主要，此时该Follower F必定已经提交来事务Proposal<v’, z’ >，其中<v’, z’ > ⊆ h_f, z’ < z

总结

如下图是以上三个流程总结，各个消息说明如下：
在这里插入图片描述

CEPOCH：Follower进程向准Leader发送字节处理过的最后一个事务Proposal的epoch值
NEWEPOCH：准Leader根据接受到的各进程的epoch生成新一轮的周期epoch值
ACK-E：Follower进程反馈Leader进程发来的NEWEPOCH消息
NEWLEADER：准Leader进程确认字节领导地位，并发生NEWLEADER消息给各个进程
ACK-LD：Follower进程反馈Leader进程发来的NEWLEADER消息
COMMIT-LD：要求Follower进程提交相应的历史事务Proposal
PROPOSE：Leader进程生成一个针对客户端事务请求的Proposal
ACK：Follower进程反馈Leader进程发来的PROPOSAL消息
COMMIT：Leader发送COMMIT消息，要求所有进程提交事务PROPOSE

上一篇：Zookeeper–简介
 下一篇：Zookeeper–ZAB与Paxos算法联系与区别

生病的毛毛虫

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Zookeeper理解---ZAB协议

ZAB协议Zookeeper并不是完全采用Paxos算法，而是使用了一种称为Zookeeper Atomic Broadcast（ZAB，Zookeeper原子消息广播协议）作为数据一致性的核心算法，依据此算法来实现分布式数据一致性的解决。他是一种特别为Zookeeper设计的奔溃可恢复的原子消息广播算法。ZAB协议的核心是定义了对应那些会改变Zookeeper服务器数据状态的师傅请求的处理方式：所有事务请求必须有一个全局唯一服务器来协调处理，这样的服务器被称为leader服务器其他服务器成为f
复制链接

扫一扫

专栏目录