探索Rapid：一个强大的分布式成员服务系统-CSDN博客

本文链接：https://blog.csdn.net/gitblog_00039/article/details/139823371

探索Rapid：一个强大的分布式成员服务系统

rapid Rapid is a scalable distributed membership service 项目地址: https://gitcode.com/gh_mirrors/rapid2/rapid

项目介绍

Rapid是一个分布式成员服务系统，旨在帮助一组进程轻松形成集群，并在成员关系发生变化时接收通知。在数据中心环境中，故障场景往往不仅仅是崩溃故障，还可能涉及防火墙配置错误、单向连接丢失、可达性翻转以及部分数据包丢失等问题。现有的成员服务解决方案在这些常见故障场景下表现不佳，难以快速或根本无法收敛到稳定状态。Rapid通过其独特的设计，能够在面对多样化的故障场景时保持稳定，并为参与进程提供强一致的系统成员视图。

项目技术分析

Rapid的核心技术架构由三个主要构建块组成：

基于扩展器的监控边缘覆盖：Rapid通过将一组进程组织成一个稳定的故障检测拓扑，其中观察者监控并传播其通信边缘的报告给被观察者。这种监控关系形成了一个具有强连通性的有向扩展图，确保健康进程能够高概率地检测到故障。
多进程割集检测：为了实现稳定性，Rapid中的进程只有在从多个观察者接收到关于某个故障进程的警报时才会怀疑该进程，并且延迟对不同进程的警报采取行动，直到变化稳定，从而收敛到检测到一个全局的多节点割集，以添加或移除成员。
实用共识机制：为了实现一致性，Rapid展示了即使在大型系统中，将几乎无处不在的共识转换为完全共识也是可行的。Rapid的共识协议通过一个低开销的无领导者协议驱动配置变化，每个进程只需通过计数相同割集检测的数量来验证共识。