关于Raft算法的共识性算法考究

最新推荐文章于 2023-06-16 11:57:32 发布

置顶平菇虾饺

最新推荐文章于 2023-06-16 11:57:32 发布

阅读量1k

点赞数

分类专栏： Java linux学习文章标签： raft 分布式一致性 ZAB 集群选举算法数据一致性

本文链接：https://blog.csdn.net/qyp199312/article/details/106057317

版权

Java 同时被 2 个专栏收录

17 篇文章 1 订阅

订阅专栏

linux学习

7 篇文章 0 订阅

订阅专栏

文章目录

前言
Raft算法选举
Raft算法数据一致性
- 正常运行态的强一致性
- Raft集群的数据共识(集群恢复时)
Raft算法的其他集群变更、日志压缩功能

前言

18年写过一个Raft的实现，开源在https://github.com/srctar/raft。时隔两年，回顾一下。

Raft算法为主从结构，其分布式一致性来源于集群的写全委托给Leader， Leader进程自身保证顺序与一致性，并发起投票要求Follower追加写，一旦过半赞成写请求（同时附加写的动作），则该写完成。
.
需要注意的是，集群的写是线性一致性/强一致性的，同时基于Follower转发的集群的读也是现行一致性/强一致性的。并非ZAB的顺序一致性。

这两天想到一个问题， raft算法的成员共识性问题。我之前的理解是:

Raft有共识性问题。当未实现所有日志提交的Follower，之后被选举为新的leader之后，源于raft日志的leader覆盖规则，将导致数据丢失。

↑↑上面这个想法是错误的↑↑， Raft算法的安全性保证（阻止不包含最新Term和日志编号的Follower成为Leader、复制旧Leader数据）达成共识，确保了成员数据的一致性(相应的，ZAB使用主从相互拷贝的形式，达成集群共识)。

关于Raft，我对其做了一个Java版的实现，地址在: https://github.com/srctar/raft。欢迎阅读。
目前实现了 raft 协议的下述功能:

集群选举.
数据一致性.
集群配置(集群节点信息, 以及集群的数目)更改.
紧急提交.
日志压缩.

Raft算法选举

选举流程参考网站：http://thesecretlivesofdata.com/raft/
本文的部分图片以及理论基础参考： https://blog.csdn.net/luoyhang003/article/details/61915666
如下Gif:

在这里插入图片描述
选举主要注意两点：

心跳超时（不管是初始态还是运行态）；
只要当前机器尚未投票（包括自己），就一定投票给申请投票者，同时重置心跳准备再次超时。

由于是多线程操作，时序图与流程图皆不好画，请参阅文字：

Raft为集群状态定义为： ELECTION(选举态)， PROCESSING(运行态)
.
每个Raft节点有三个状态：FOLLOWER、LEADER、CANDIDATE（选举者）

独立线程心跳超时（一般是100ms）；
a. 独立线程可以位于FOLLOWER，也可以位于刚启动的集群节点，还可以位于宕机、网络中断的节点。
b. LEADER节点无该独立线程（它负责给别的节点发心跳）。
c. -
该线程休眠 150~300ms，高于心跳超时时间100ms。
a.此操作非常重要，用以防止选票分散，进而导致长期超时
b.休眠中的线程可以接受投票。
c. -
投自己一票，并向集群中的节点申请投票。
a. 节点处于集群选举中ELECTION，且未给任何节点投票，节点默认接受投票申请。
b. -
当某节点收到过半赞许，节点立马转化为 LEADER。关闭心跳线程，同时给其它节点发送心跳。
a. 节点处于运行态 PROCESSING，且自身是LEADER，显然，一定有个老leader网断了，然后又网好了。只要对方的Term大于自己，那自己立马转化为FOLLOWER。
b. -
选举态的节点收到心跳，转化为FOLLOWER，同时重设心跳线程。
a. 注意，节点处于选举态 ELECTION，需要心跳发送者的Term高于自己，否则返回拒绝(APPEND_ENTRIES_DENY)
b. 节点处于运行态 PROCESSING，需要匹配心跳者是否是集群LEADER。是则重置心跳线程，否则直接拒绝。
c. -

如上选举算法设计，合理的确保下如下表格中的case，能快速选上leader、且非过半宕机时，集群可用:

Case	担忧点	解决方案
正常启动选Leader	选不上	重选/启动时参与选举有线程休眠时间150~300ms，此时接受投票一定赞同，确保选举
不过半的`Follower`宕机/失联	可用性	可用， `Leader`不宕机，不影响选举，不过半宕机，不影响数据投票
过半Follower宕机	可用性	`Leader`不宕机，还能接受数据，过半宕机，影响数据投票，集群不可用
不过半宕机，包含`Leader`	可用性	可用，心跳超时再选举，通常一轮就能选出新`Leader`，集群正常服务
不过半宕机，包含`Leader`	可用性	不可用，选不出`Leader`
`Leader`失联	集群状态	其他机器依旧能选上新`Leader`，期序`Term`累加，旧`Leader`恢复之后接受心跳转为`Follower`
`Leader`宕机	集群状态	其他机器依旧能选上新`Leader`，重启之后接受心跳转为`Follower`