raft 选举算法

本文详细介绍了Raft算法在分布式系统中的应用,特别是在确认领导者角色、避免多节点同时竞选以及处理故障时的角色转换。通过任期机制、心跳信息和随机超时等机制,Raft确保了在分布式环境中的高效一致性与容错性。
摘要由CSDN通过智能技术生成

raft 选举算法。

Raft选举的用途

流行的组件,

etcd,consul,Nacos,rocketMq,Redis Sentinel 底层 采用Raft算法。

Raft算法是分布式系统开发首选的共识算法。
主要在分布式集群架构下进行领导者(主节点)的确认。

比如现在流行的组件Etcd、Consul、Nacos、RocketMQ、Redis Sentinel底层都是采用Raft算法来确认集群中的主节点,再通过主节点向其他节点下发指令。

如果掌握了这个算法,就可以较容易地处理绝大部分场景的容错和一致性需求。比如分布式配置系统、分布式NoSQL存储等等,轻松突破系统的单机限制。Rt算法是通过一切以领导者为准的方式,实现一系列值的共识和各节点日志的一致。

Raft角色

  • 跟随者(Follower):普通群众,默默接收和来自领导者的消息,当领导者心跳信息超时的时候,就主动站出来,推荐自己当候选人。

  • 候选人(Candidate):候选人将向其他节点请求投票RPC消息,通知其他节点来投票,如果赢得了大多数投票选票,就晋升当领导者。

  • 领导者(Leader):霸道总裁,一切以我为准。处理写请求、管理日志复制和不断地发送心跳信息,通知其他节点“我是领导者,我还活着,你们不要”发起新的选举,不用找新领导来替代我。

如下图所示,分别用三种图代表跟随者、候选人和领导者。
在这里插入图片描述

Raft选举过程

1.初始状态

初始状态下,集群中所有节点都是跟随者的状态。
如下图所示,有三个节点(Node)a、b、c,任期(Term)都为0。
在这里插入图片描述

Raft算法实现了随机超时时间的特性,每个节点等待领导者节点心跳信息的超时时间间隔是随机的。比如A节点等待超时的时间间隔150ms,B节点200ms,C节点300ms。那么a先超时,最先因为没有等到领导者的心跳信息,发生超时。如下图所示,三个节点的超时计时器开始运行。

2.发起投票

当A节点的超时时间到了后,A节点成为候选者,并增加自己的任期编号,Term值从0更新为1,并给自己投了一票。

  • Node A:Term=1,Vote Count=1。
  • Node B:Term=0.
  • Node C:Term=0
    -

3.成为领导者的简化过程

我们来看下候选者如何成为领导者的。

1.节点A成为候选者后,向其他节点发送请求投票RPC信息,请它们选举自己为领导者。
2.节点B和节点C接收到节点A发送的请求投票信息后,在编号为1的这届任期内,还没有进行过投票,就把选票投给节点A,并增加自己的任期编号。
3.节点A收到3次投票,得到了大多数节点(/2+1)的投票,从候选者成为本届任期内的新的领导者。
4.节点A作为领导者,固定的时间间隔给节点B和节点C发送心跳信息,告诉节点B和C,我是领导者,组织其他跟随者发起新的选举。
5.节点B和节点C发送响应信息给节点A,告诉节点A我是正常的。

4.领导者的任期

英文单词是term,领导者是有任期的。

在这里插入图片描述

  • 自动增加:跟随者在等待领导者跳信息超时后,推荐自己为候选人,会增加自己的任期号,如上图所示,节点A任期为0,推举自己为候选人时,任期编号增加为1。

在这里插入图片描述

  • 更新为较大值:当节点发现自己的任期编号比其他节点小时,会更新到较大的编号值。比如节点A的任期为1,请求投票,投票消息中包含了节点A的任期编号,且编号为1,节点B收到消息后,会将自己的任期编号更新为1。
  • 恢复为跟随者:如果一个候选人或者领导者,发现自己的任期编号比其他节点小,那么它会立即恢复成跟随者状态。这种场景出现在分区错误恢复后,任期为3的领导者受到任期编号为4的心跳消息,那么前者将立即恢复成跟随者状态。
  • 拒绝消息:如果一个节点接收到较小的任期编号值的请求,那么它会直接拒绝这个请求,比如任期编号为6的节点A,收到任期编号为5的节点B的请求投票RPC消息,那么节点A会拒绝这个消息。
  • 一个任期内,领导者一直都会领导者,直到自身出现问题(如宕机),或者网络问题(延迟),其他节点发起一轮新的选举。

5.防止多个节点同时发起投票

为了防止多个节点同时发起投票,会给每个节点分配一个随机的选举超时时间。这个时间内,节点不能成为候选者,只能等到超时。比如上述例子,节点A先超时,先成为了候选者。这种巧妙的设计,在大多数情况下只有一个服务器节点先发起选举,而不是同时发起选举,减少了因选票瓜分导致选举失败的情况。

6.触发新的一轮选举

如果领导者节点出现故障,则会触发新的一轮选举。如下图所示,领导者节点A发生故障,节点B和节点C就会重新选举Leader。

1.节点A发生故障,节点B和节点C没有收到领导者节点A的心跳信息,等待超时加
2.节点C先发生超时,节点C成为候选人。
3.节点C向节点A和节点B发起请求投票信息。
A.节点C响应投票,将票投给了C,而节点A因为发生故障了,无法响应C的投票请求。
5.节点C收到两票(大多数票数),成为领导者。
6.节点C向节点A和B发送心跳信息,节点B响应心跳信息,节点A不响应心跳信息。
7.节点A恢复后,收到节点C的高任期消息,自身将为跟随者,接收节点C的消息。

总结:Raft算法的几个关键机制

Rft算法通过以下几个关键机制,保证了一个任期只有一位领导,极大减少了选举失败的情况。

  • 任期机制
  • 领导者心跳信息
  • 随机选举超时时间
  • 先来先服务的投票原则
  • 大多数选票原则
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值