分布式基础——Paxos算法
介绍
Paxos算法是莱斯利·兰伯特(英语:Leslie Lamport,LaTeX中的“La”)于1990年提出的一种基于消息传递且具有高度容错特性的共识(consensus)算法。需要注意的是,虽然Paxos和Raft一样,在非拜占庭问题中,都保证各个节点之间的强一致性,但是“一致性”和“共识(consensus)”并不是同一个概念。Paxos是一个共识(consensus)算法。
自Paxos问世以来就持续垄断了分布式一致性算法,Paxos这个名词几乎等同于分布式一致性。Google的很多大型分布式系统都采用了Paxos算法来解决分布式一致性问题,如Chubby、Megastore以及Spanner等。开源的ZooKeeper,以及MySQL 5.7推出的用来取代传统的主从复制的MySQL Group Replication等纷纷采用Paxos算法解决分布式一致性问题。
内容
两大阶段
-
prepare
- prepare(N)请求: proposer提出一个proposal, 编号为N (编号应该时递增的,大于等于之前所有已经提出的编号),向所有的Acceptor广播(注意这里只发送编号没有内容)。
- promise(n,value)返回:如果N大于该acceptor此前接收的所有提案编号就接收(并承诺不在接收比N小的提议)否则拒绝,如果该acceptor存在已经同意的提案就返回这个提案的编号和内容,否则返回空值表示接收即可
-
accept阶段
- accept(N,value)请求: proposer收到多数派(多于一半的acceptor返回的promise),如果存在编号大的议案返回新value,否则返回本次议案的value注:收到议案的n与提出编号N无关
- accepted(N)返回:如果在此期间没有任何编号大于N的提案,就接受提案内容否则就拒绝
- 当proposer收到超过半数的acceptor的返回值后,达成共识
案例分析
- 参谋1在prepare阶段发出议案,将军1,2发现该议案的编号(N)最大,回复ok
- 参谋2在prepare阶段发出议案,将军2,3发现该议案的编号(N)最大,回复ok
- 参谋1进入accept阶段,发送信息,但此时进军2已经收到了N更大的议案,所以拒绝了参谋1的后续请求
- 参谋2进入accept阶段,发送信息,此时将军2,3发现该议案的编号(N)最大,回复accepted
- 之后参谋1重新提出议案
缺点以及优化
- 容易产生活锁,两个proposer(参谋)不断提出编号更高的议案,希望自己优先执行,可以手动增加间隔时间或者使用二进制指数退避算法(等待时间随碰撞次数增加而发生指数增长,从而避免频繁的触发冲突)来缓解
- 效率低,Multi-paxos先选出Leader后,每次仅需一轮
- 实现困难