φ累积失败检测算法

最新推荐文章于 2024-05-24 19:27:41 发布

纯粹的码农

最新推荐文章于 2024-05-24 19:27:41 发布

阅读量6.4k

点赞数

分类专栏：分布式算法文章标签：算法 cassandra 网络 server crash service

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/chen77716/article/details/6541968

版权

φ累积失败检测算法是一种改进的错误检测方法，尤其适用于Gossip通信和网络负载动态变化的场景。它利用滑动窗口记录心跳时间间隔，通过概率密度函数动态计算误判可能性，以更准确地判断服务器是否宕机。Cassandra错误检测就采用了此算法，通过指数分布函数适应网络状况变化。

摘要由CSDN通过智能技术生成

在分布式系统中经常使用心跳(Heartbeat)来检测Server的健康状况，但从理论上来说，心跳无法真正检测对方是否crash，主要困难在于无法真正区别对方是宕机还是“慢”。传统的检测方法是设定一个超时时间T，只要在T之内没有接收到对方的心跳包便认为对方宕机，方法简单粗暴，但使用广泛。

1. 传统错误检测存在的缺陷

如上所述，在传统方式下，目标主机会每间隔t秒发起心跳，而接收方采用超时时间T(t<T)来判断目标是否宕机，接收方首先要非常清楚目标的心跳规律（周期为t的间隔）才能正确设定一个超时时间T，而T的选择依赖当前网络状况、目标主机的处理能力等很多不确定因素，因此在实际中往往会通过测试或估计的方式为T赋一个上限值。上限值设置过大，会导致判断“迟缓”，但会增大判断的正确性；过小，会提高判断效率，但会增加误判的可能性。但下面几种场景不能使用传统检测方法：

1. Gossip通信

但在实际应用中，比如基于Gossip通信应用中，因为随机通信，两个Server之间并不存在有规律的心跳，因此很难找到一个适合的超时时间T，除非把T设置的非常大，但这样检测过程就会“迟缓”的无法忍受。

2. 网络负载动态变化

还有一种情况是，随着网路负载的加大，Server心跳的接收时间可能会大于上限值T；但当网络压力减少时，心跳接收时间又会小于T，如果用一成不变的T来反映心跳状况，则会造成判断”迟缓“或误判。

3. 心跳检测与结果的分离

并不是每个应用都只需要知道一个目标主机宕机与否的结果（true/false）

最低0.47元/天解锁文章

纯粹的码农

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。