1. 算法背景
由于卡夫卡集群的特性,在系统运行一段时间后(默认配置是7天),会自动清除掉过期的记录,因此每个周期之后加入的节点都会丢失一部分数据。于是,我们需要一个机制能不依赖卡夫卡集群来实现数据的一致性,这就是我接下来要讲的Gossip算法。
2. 算法简介
Gossip算法如其名,灵感来自办公室八卦,只要一个人八卦一下,在有限的时间内所有的人都会知道该八卦的信息,这种方式也与病毒传播类似,因此Gossip有众多的别名“闲话算法”、“疫情传播算法”、“病毒感染算法”、“谣言传播算法”。
在一个有界网络中,每个节点都随机地与其他节点通信,经过一番杂乱无章的通信,最终所有节点的状态都会达成一致。每个节点可能知道所有其他节点,也可能仅知道几个邻居节点,只要这些节可以通过网络连通,最终他们的状态都是一致的,当然这也是疫情传播的特点。
Gossip是一种去中心化、容错而又最终一致性的绝妙算法,其收敛性不但得到证明还具有指数级的收敛速度。使用Gossip的系统可以很容易的把Server扩展到更多的节点,满足弹性扩展轻而易举。
3. 算法目的
当卡夫卡集群无法保证数据一致性时,通过此算法,保证系统最终数据一致。同时,还可支持节点间各种类型的消息传播。
4. 算法实现
算法主要实现了三个功能1.在线节点不断广播”Alive”消息来指示它们的可用性;2.在数据和其他节点不一致时,同步其他节点数据;3.在有新数据进入网络时,节点间通过不断的对随机相邻节点广播,最终达到数据一致性。
a) 初始化
i. 节点启动时,向卡夫卡集群发送连接消息,类型为KafkaMessage_Connect