一文讲透自适应微服务熔断的原理和实现

最新推荐文章于 2024-08-21 21:31:25 发布

Java后端架构猛猛

最新推荐文章于 2024-08-21 21:31:25 发布

阅读量1.5k

点赞数

文章标签：微服务

本文链接：https://blog.csdn.net/m0_67645544/article/details/123738412

版权

本文详细介绍了微服务中自适应熔断的原理和实现，包括为何需要熔断以防止服务雪崩，熔断器的工作状态（关闭、断开、半断开），常见的熔断组件如hystrix和sentinel。此外，文章讨论了谷歌的自适应熔断算法，该算法根据请求成功率动态调整丢弃请求的概率，以实现无需精确参数配置的熔断。最后，通过分析go-zero的熔断器实现，展示了如何利用滑动窗口数据结构和错误日志收集来实现熔断的可观测性。

摘要由CSDN通过智能技术生成

为什么需要熔断

微服务集群中，每个应用基本都会依赖一定数量的外部服务。有可能随时都会遇到网络连接缓慢，超时，依赖服务过载，服务不可用的情况，在高并发场景下如果此时调用方不做任何处理，继续持续请求故障服务的话很容易引起整个微服务集群雪崩。比如高并发场景的用户订单服务，一般需要依赖一下服务：

商品服务
账户服务
库存服务

假如此时账户服务过载，订单服务持续请求账户服务只能被动的等待账户服务报错或者请求超时，进而导致订单请求被大量堆积，这些无效请求依然会占用系统资源：cpu，内存，数据连接...导致订单服务整体不可用。即使账户服务恢复了订单服务也无法自我恢复。

这时如果有一个主动保护机制应对这种场景的话订单服务至少可以保证自身的运行状态,等待账户服务恢复时订单服务也同步自我恢复，这种自我保护机制在服务治理中叫熔断机制。

熔断

熔断是调用方自我保护的机制（客观上也能保护被调用方），熔断对象是外部服务。

降级

降级是被调用方（服务提供者）的防止因自身资源不足导致过载的自我保护机制，降级对象是自身。

熔断这一词来源时我们日常生活电路里面的熔断器，当负载过高时（电流过大）保险丝会自行熔断防止电路被烧坏，很多技术都是来自生活场景的提炼。

工作原理

熔断器一般具有三个状态：

关闭：默认状态，请求能被到达目标服务，同时统计在窗口时间成功和失败次数，如果达到错误率阈值将会进入断开状态。
断开：此状态下将会直接返回错误，如果有 fallback 配置则直接调用 fallback 方法。
半断开：进行断开状态会维护一个超市时间，到达超时时间开始进入半断开状态，尝试允许一部门请求正常通过并统计成功数量，如果请求正常则认为此时目标服务已恢复进入关闭状态，否则进入断开状态。半断开状态存在的目的在于实现了自我修复，同时防止正在恢复的服务再次被大量打垮。

使用较多的熔断组件：

hystrix circuit breaker（不再维护）
hystrix-go
resilience4j（推荐）
sentinel（推荐）

什么是自适应熔断

基于上面提到的熔断器原理，项目中我们要使用好熔断器通常需要准备以下参数：

错误比例阈值：达到该阈值进入断开状态。
断开状态超时时间:超时后进入半断开状态。
半断开状态允许请求数量。
窗口时间大小。

实际上可选的配置参数还有非常非常多，参考
https://resilience4j.readme.io/docs/circuitbreaker

对于经验不够丰富的开发人员而言，这些参数设置多少合适心里其实并没有底。

那么有没有一种自适应的熔断算法能让我们不关注参数，只要简单配置就能满足大部分场景？

其实是有的，google sre提供了一种自适应熔断算法来计算丢弃请求的概率：

算法参数：

requests：窗口时间内的请求总数
accepts：正常请求数量
K：敏感度，K 越小越容易丢请求，一般推荐 1.5-2 之间

算法解释：

正常情况下 requests=accepts，所以概率是 0。
随着正常请求数量减少，当达到 requests == K* accepts 继续请求时，概率 P 会逐渐比 0 大开始按照概率逐渐丢弃一些请求，如果故障严重则丢包会越来越多，假如窗口时间内 accepts==0 则完全熔断。
当应用逐渐恢复正常时，accepts、requests 同时都在增加，但是 K*accepts 会比 requests 增加的更快，所以概率很快就会归 0，关闭熔断。