raft是实现分布式共识的一种协议!
节点可以分为三种类型:
Follower,candidate, leader
刚开始的时候,所有nodes都是follower:
如果follower听不见leader的心跳一段时间,他们就会变成candidate:
然后candidate就给其他nodes发rpc说:喂喂喂,给我投票啦!
好呗,那其他nodes就响应它一下,并且给candidate投一票:
由于candidate获得了全票(实际上只要超过半数),那么它就可以变成leader
以上就是传说中的leader election!!!
然后,现在leader就成为了外界的一个接口,所有client给的信息都由它来处理,比如说:
client说:乖乖,给老子set个5。leader收到之后呢,不会马上对它的state machine进行value 的update,所以这个log entry还是uncommitted的
为了commit这个entry,leader会首先复制这个log entry给其他follower:
然后,leader等到其他follower的返回信息后,就commited了,然后state也改变了呀:
最后,leader发消息告诉其他follower那个entry已经committed,状态可以变了呀:
然后,整个集群就系统的state达成了一个共识!!
以上就是传说中的log replication!!
下面介绍raft中两种在leader election中的超时机制
第一种就是election timeout
这个election timeout就是说如果一个follower等了一段时间都没收到任何消息,他就会升级成candidate,这个时间在150ms到300ms中取一个随机值
时间到了之后,我们发现C变成了candidate(因为它的timeout最小呗),然后变成candidate后它的term++,它的vote++(自我投票)
然后,变成candidate的瞬间它就向其他follower发一个request vote请求投票给自己
follower接受到request vote之后,他们的timeout马上重置,然后他们的term应该是和candidate的马上保持同步,然后他们为C进行投票(前提是他们这个term还没有vote哦)
一旦这个candidate由了大多数的votes他就会变成一个leader!
然后这个leader就开始发送append entries给其他followers,这个信息是周期性的发送的,具体依赖于他的心跳间隔
follower收到appendentriesrpc后,就重置timeout,然后给leader发送一个response
显然,我们直到leader的心跳间隔是小于follower的timeout的呀
这个过程会一直持续直到某个follower收不到leader的心跳信息了,这时候这个follower就会成为一个candidate
这时候,re-election就发生了!
让我补充一下上图,就是node a先到达timeout,然后它变成candidate,并且node a的term变成2,然后它向node b索取vote,node b的term也变成2,当node b发送了vote的信息后,noda a就当选了term2 的leader了
需要绝大多数votes才能成为leader这个限制保证了每个term最多只有一个leader!
那么如果两个node同时变成了candidate然后形成了一种分裂的vote情况呢??
这时候,两个nodes在相同的term4中都开启了一个election流程
再巧合一点,让每个candidate node都刚好得到一个follower的支持,那么他们就平票了呀
然后所有node就会wait,等一个新的election,这时候b最先timeout变成了新的candidate,可是它怎么就变成了6了呢????等会再看一次哈
再看一次发现:额,再看了一次发现其实是term5,到是有两个细节可以注意,以前的candidate收到新的candidate的requestvote后马上退化成follower,然后candidate只要收到3个(包括自己的)vote就变成leader了
最后还是log replication
append entries既可以用来发心跳,又可以用来同步log entry和state
举个栗子,client的请求加入到leader log里面
这里有个细节,就是commited log之后,leader是先回应client,然后再把commited的信息发给其他follower的
顺序就是:client请求-》leader写入log-》leader 发appendentries同步log-》follower返回大多数的log更新-》leader 回应client-》leader将commited信息发给follower
raft还可以再网络分区中保持一致性
这时候,有不同terms中的两个leader(为什么是不同terms呢)
再看一次发现:一开始是term1的,nodeb是leader,然后node cde独立了出去,变成了新的分区,然后就会有新的term2了
但是node b不能获得大多数的副本(只有2/5),所以他是uncommitted的
同时,nodec也收到了set8指令,但是它可以获得(3/5)的支持,所以可以commit
node b发现了一个比它更高term的node c就会退化成follower
node a和b就会撤回他们的uncommited entry然后和当前leader的log进行匹配
然后就功德圆满啦!