Cassandra 故障探测原理--Accrual Failure Detector

最新推荐文章于 2019-05-03 03:12:57 发布

vcloud_163

最新推荐文章于 2019-05-03 03:12:57 发布

阅读量991

点赞数

文章标签：环境网络应用方法设置

本文链接：https://blog.csdn.net/vcloud_163/article/details/80125134

版权

背景
　　众所周知，故障探测(failure detector)是分布式系统的基础模块,用于探测各种服务（数据库、缓存）、节点（主机、云主机、容器）、进程等服务的状态。在分布式环境下应用需要调整故障检测以适用于不同的QOS需求，而传统的故障探测算法只能提供bool结果对探测进行决断。传统的探测方法主要通过周期心跳Heartbeat和超时时间Timout来处理，当在固定timeout时间内没有收到心跳则断定该节点失效并进行相关逻辑处理。那问题出来了：这个timeout设置为多久呢？timeout跟heartbeat的关系如何？不同环境下网络等都可能不同（如局域网内通信、异地数据中心通信、跨机房），如何在不同环境下对timeout进行设置呢?心跳信号过短是不是会造成网络拥塞？
　　来来来，看如何解决上述问题：Accrual Failure Detector是日本的学着Naohiro Hayashibara等人提出的失败探测算法，国内暂时对该算法没有很好的中文定义，从其实现来看暂且定义为：累积型失败探测（对历史数据进行累积与分析）,本文就是在对该算法的理解上并针对Cassnadra的实现进行了分析，如有纰漏之处，求指正。
　　Accrual failure detector（累积型失败探测）的创新在于：产生结果是被监测的节点或服务失效（crash）的置信度(the degree of confidence)，置信度是随着时间变化的连续的值。累积型失败探测通过一个固定大小窗口（WS）存储收到心跳信号的间隔时间，通过这个窗口对心跳信号均值及方差进行分析，生成一个置信度。分布式应用可以根据自身的QOS需求定义适合自己的suspicion threshold（可信度

最低0.47元/天解锁文章

vcloud_163

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Cassandra 故障探测原理--Accrual Failure Detector

背景　　众所周知，故障探测(failure detector)是分布式系统的基础模块,用于探测各种服务（数据库、缓存）、节点（主机、云主机、容器）、进程等服务的状态。在分布式环境下应用需要调整故障检测以适用于不同的QOS需求，而传统的故障探测算法只能提供bool结果对探测进行决断。传统的探测方法主要通过周期心跳Heartbeat和超时时间Timout来处理，当在固定timeout时间内没有收到...
复制链接

扫一扫