让我们聊聊脑裂这事情

摘要: 分布式系统很难,为什么难,其实还是数据一致性的问题。最近在看Erlang中和Mnesia相关的一些东西,想起了这个话题来了。

万事皆有因

最近IM云平台也好,社交应用也好,大量的使用ejabberd的厂商涌现出来了。不过所有使用ejabberd厂商可能都会遇到Mnesia脑裂的问题。在这里打算简单的谈谈脑裂这个事情。


什么是脑裂

我在这里面给个非官方的定义吧。当一个集群的不同部分在同一时间都认为自己是活动的时候,我们就可以将这个现象称为脑裂症状。我们当如何理解这句话呢?

  1. 首先我们需要是个集群。

  2. 其次当中有业务是Master-Backup模式或双星模式。也就是说当主节点挂掉了,备用节点需要接管业务或者是两个节点直接有数据同步。

让我们举个例子(图片来自https://blog.process-one.net/angie_introducing_flexarch/):


其中ejabberd front是不存在Router的,只有Client Manager。而ejabberd back是具有Message router 的。那么我们可以将这个图简单的抽象为这样的:



UserA和UserB分别将自己的信息注册在RouterA和RouterB中。RouterA和RouterB使用数据同步(2PC),来同步信息。那么当UserA想要向UserB发送一个消息的时候,需要现在RouterA中查询出UserA到UserB的消息路由路径,然后再交付给相应的路径进行路由。

当脑裂发生的时候,相当RouterA和RouterB直接的联系丢失了,RouterA认为整个系统中只有它一个Router,RouterB也是这样认为的。那么相当于RouterA中没有UserB的信息,RouterB中没有UserA的信息了,此时UserA再发送消息给UserB的时候,RouterA会认为UserB已经离线了,然后将该信息进行离线持久化。

说到这里面估计大家已经明白了脑裂是什么东西了。


怎么解决

  1. paxos算法,使用奇数性质的节点来进行表决,必须选出一个说的算的老大,这个集群才能正常工作。

  2. 双星模式下,使用专线直连,从硬件上保障。

  3. 使用额外的探测节点,当双方直连断开之后,使用一个约定好的共同节点来探测是否是直连故障。

展开阅读全文

没有更多推荐了,返回首页