分布式共识Raft算法
一、概述
详细参考动图官网
Raft 算法是分布式系统开发首选的共识算法,Raft 算法是通过一切以领导者为准的方式,实现一系列值的共识和各节点日志的一致性。
二、Raft 角色
领导者:leader,处理写请求、管理日志复制和不断地发送心跳信息(通知其他节点我还活着,你们不要 发起新的选举,不用找新领导来替代我)。
跟随者:fellower,默默接收和来自领导者的消息,当领导者心跳信息超时的时候,就主动站出来,推荐自己当候选人。
候选人:candidate,将向其他节点请求投票 RPC 消息,通知其他节点来投票,如果赢得了大多数投票选票,就晋升当领导者。
三、集群中的问题
在多节点集群中,怎么保证一致性呢?比如有三个数据库节点:a,b,c。这三个节点组成一个数据库集群。客户端对这三个节点进行更新操作,如何保证三个节点中存的值一致?这个就是分布式一致性问题。
在多节点集群中,在节点故障、分区错误等异常情况下,Raft 算法如何保证在同一个时间,集群中只有一个领导者。
Raft 算法就是来解决这个问题的。
四、 选举过程
-
初始状态
初始状态下,集群中所有节点都是跟随者的状态,任期(Term)都为 0。 -
成为候选者
Raft 算法实现了随机超时时间的特性,每个节点等待领导者节点心跳信息的超时时间间隔是随机的。
虚框节点A成为候选人之后,并增加自己的任期编号Term 值从 0 更新为 1,并给自己投了一票。 -
投票
第一步:黑框节点 A 成为候选者后,向其他节点发送请求投票 RPC 信息,请它们选举自己为领导者。
第二步:节点 B 和 节点 C 接收到节点 A 发送的请求投票信息后,在编号为 1 的这届任期内,还没有进行过投票,就把选票投给节点 A,并增加自己的任期编号。
第三步:节点 A 收到 3 次投票,得到了大多数节点的投票,从候选者成为本届任期内的新的领导者。
第四步:节点 A 作为领导者,固定的时间间隔给 节点 B 和节点 C 发送心跳信息,告诉节点 B 和 C,我是领导者,阻止其他跟随者发起新的选举。
第五步:节点 B 和节点 C 发送响应信息给节点 A,告诉节点 A 我是正常的。
五、选举规则
任期 term,领导者是有任期的。
- 自动增加:跟随者在等待领导者心跳信息超时后,推荐自己为候选人,会增加自己的任期号。
- 更新为较大值:当节点发现自己的任期编号比其他节点小时,会更新到较大的编号值。
- 恢复为跟随者:如果一个候选人或者领导者,发现自己的任期编号比其他节点小,那么它会立即恢复成跟随者状态。这种场景出现在分区错误恢复后,任期为 3 的领导者受到任期编号为 4 的心跳消息,那么前者将立即恢复成跟随者状态。
- 拒绝消息:如果一个节点接收到较小的任期编号值的请求,那么它会直接拒绝这个请求,比如任期编号为 6 的节点 A,收到任期编号为 5 的节点 B 的请求投票 RPC 消息,那么节点 A 会拒绝这个消息。
心跳超时,为了防止多个节点同时发起投票,会给每个节点分配一个随机的选举超时时间。这个时间内(随机在 150 毫秒到 300 毫秒之间),节点不能成为候选者,只能等到超时。
5.1、选举规则
- 一个任期内,领导者一直都会领导者,直到自身出现问题(如宕机),或者网络问题(延迟),其他节点发起一轮新的选举。
- 在一次选举中,每一个服务器节点最多会对一个任期编号投出一张选票,投完了就没了。
- 大多数选票原则
六、Raft 算法选举总结
Raft 算法保证了一个任期只有一位领导,极大减少了选举失败的情况。
- 任期
- 领导者心跳信息
- 随机选举超时时间
- 先到先得的投票原则
- 大多数选票原则
七、日志复制
一旦我们选出了领导者,我们需要将系统的所有更改复制到所有节点。 这是通过使用与心跳相同的附加条目消息来完成的。
- 首先,客户端向领导者发送更改;
- 更改将附加到领导者的日志中;
- 然后在下一次心跳时将更改发送给追随者;
- 一旦大多数追随者承认条目,领导者就会提交条目(过半提交);并向客户端发送响应。
哪怕反生了网络分区日志在在我们的集群中也是一致的(过半提交)。