什么是服务降级和熔断（网络白话摘要）

最新推荐文章于 2024-04-26 20:36:58 发布

皓月之明

最新推荐文章于 2024-04-26 20:36:58 发布

阅读量1.6w

点赞数 15

分类专栏：微服务文章标签：熔断降级

本文链接：https://blog.csdn.net/sheinenggaosuwo/article/details/86594951

版权

微服务专栏收录该内容

8 篇文章 1 订阅

订阅专栏

伴随着微服务架构被宣传得如火如荼，一些概念也被吹的风生水起（管你接受不接受），其实大多数概念以前就有，但很少被提的这么频繁（现在好像不提及都不好意思交流了）。想起有人总结的一句话，微服务架构的特点就是：“一解释就懂，一问三不知，一谈就吵架”；

首先为什么需要服务的熔断和降级呢？

服务的稳定是公司可持续发展的重要基石，随着业务量的快速发展，一些平时正常运行的服务，会出现各种突发状况，而且在分布式系统中，每个服务本身又存在很多不可控的因素，比如线程池处理缓慢，导致请求超时，资源不足，导致请求被拒绝，又甚至直接服务不可用、宕机、数据库挂了、缓存挂了、消息系统挂了...对于一些非核心服务，如果出现大量的异常，可以通过技术手段，对服务进行降级并提供有损服务，保证服务的柔性可用，避免引起雪崩效应；

一、什么是服务熔断或服务降级？

1、服务熔断一般是指软件系统中，由于某些原因使得服务出现了过载现象，为防止造成整个系统故障，从而采用的一种保护措施，所以很多地方把熔断亦称为过载保护；服务熔断一般是某个服务（下游服务）故障引起，而服务降级一般是从整体负荷考虑；熔断其实是一个框架级的处理，每个微服务都需要（无层级之分），而降级一般需要对业务有层级之分（比如降级一般是从最外围服务开始）

2、服务降级是在服务器压力陡增的情况下，利用有限资源，根据当前业务情况，关闭某些服务接口或者页面，以此释放服务器资源以保证核心任务的正常运行。

流量控制本质上是减小访问量，而服务处理能力不变；而服务降级本质上是降低了部分服务的处理能力，增强另一部分服务处理能力，而访问量不变。

3、什么是服务降级？当服务器压力剧增的情况下，根据实际业务情况及流量，对一些服务和页面有策略的不处理或换种简单的方式处理，从而释放服务器资源以保证核心交易正常运作或高效运作；服务降级主要用于什么场景呢？当整个微服务架构整体的负载超出了预设的上限阈值或即将到来的流量预计将会超过预设的阈值时，为了保证重要或基本的服务能正常运行，我们可以将一些 不重要 或 不紧急 的服务或任务进行服务的 延迟使用 或 暂停使用，

详细可参考：https://my.oschina.net/yu120/blog/1790398

4、服务降级，当服务器压力剧增的情况下，根据当前业务情况及流量对一些服务和页面有策略的降级，以此释放服务器资源以保证核心任务的正常运行。降级：是利用有限资源，保障系统核心功能高可用、有损的架构方法。有限资源；核心高可用；有损；架构方法。

有限资源（边际效用递减法则：单位资源投入对可用性的效用是不断递减的）。核心（功能/服务等级：核心高可用，级别越低，可用性要求越低）。有损（降级与故障切换的关系：降级是有损的故障切换）。架构方法（降级需要预先分析、设计，有实施方法论）；有关降级方案设计参考：http://www.10tiao.com/html/164/201612/2652898117/1.html

5、服务熔断和电路熔断是一个道理，如果一条线路电压过高，保险丝会熔断，防止出现火灾，但是过后重启仍然是可用的；而服务熔断则是对于目标服务的请求和调用大量超时或失败，这时应该熔断该服务的所有调用，并且对于后续调用应直接返回，从而快速释放资源，确保在目标服务不可用的这段时间内，所有对它的调用都是立即返回，不会阻塞的。再等到目标服务好转后进行接口恢复。

服务降级是当服务器压力剧增的情况下，根据当前业务情况及流量对一些服务和页面有策略的降级，以此释放服务器资源以保证核心任务的正常运行；对于复杂系统而言，会有很多的微服务通过 rpc 调用，从而产生一个业务需要一条很长的调用链，其中任何一环故障了都会导致整个调用链失败或超时而导致业务服务不可用或阻塞。这种情况下，可以暂时去掉调用链中故障的服务来进行降级，其中降级策略又有很多种，比如限流，接口拒绝等，这里就挑个简单的来举栗；

二、服务降级在操作上有哪些方案？

服务降级是前后端联动，相互配合来做到的，意味着，在代码设计阶段，前后端必须要共同考虑服务降级的方案。根据事态的严重性，会制定不同级别的降级方案：

1. 按比例执行API：预先设定一定的比例，将这部分流量带来的API请求，不做处理，直接返回默认值，其余请求能继续正常返回。

2. 关闭非核心服务API：前端页面能继续访问，但是将与核心功能无关的API关闭掉，保证主流程能继续执行，前端隐藏对应的信息展示。

3. 延迟返回，结果转异步返回：页面能正常访问，但是涉及到记录变更，会提示稍晚更新结果，将数据记录更新的返回转到异步MQ。

4. 将前端页面切到静态页：通过Nginx设置，将页面跳转到一个静态页面。例如“目前系统正在维护，blabla”这样的页面。

三、降级预案

在进行降级之前要对系统进行梳理，看看系统是不是可以丢卒保帅；从而梳理出哪些必须誓死保护，哪些可降级；比如可以参考日志级别设置预案：

一般：比如有些服务偶尔因为网络抖动或者服务正在上线而超时，可以自动降级；

警告：有些服务在一段时间内成功率有波动（如在95~100%之间），可以自动降级或人工降级，并发送告警；

错误：比如可用率低于90%，或者数据库连接池被打爆了，或者访问量突然猛增到系统能承受的最大阀值，此时可以根据情况自动降级或者人工降级；

严重错误：比如因为特殊原因数据错误了，此时需要紧急人工降级

针对服务降级详细参考：https://jinnianshilongnian.iteye.com/blog/2306477

四、自动降级方式有哪些？

超时降级 —— 主要配置好超时时间和超时重试次数和机制，并使用异步机制探测恢复情况
失败次数降级 —— 主要是一些不稳定的API，当失败调用次数达到一定阀值自动降级，同样要使用异步机制探测回复情况
故障降级 —— 如要调用的远程服务挂掉了（网络故障、DNS故障、HTTP服务返回错误的状态码和RPC服务抛出异常），则可以直接降级
限流降级 —— 当触发了限流超额时，可以使用暂时屏蔽的方式来进行短暂的屏蔽

当我们去秒杀或者抢购一些限购商品时，此时可能会因为访问量太大而导致系统崩溃，此时开发者会使用限流来进行限制访问量，当达到限流阀值，后续请求会被降级；降级后的处理方案可以是：排队页面（将用户导流到排队页面等一会重试）、无货（直接告知用户没货了）、错误页（如活动太火爆了，稍后重试）。

五、熔断原理如何理解？

这里的这个机制就是熔断降级，熔断降级的实现原理也很简单，看下面这个图：

1、实时监控接口的健康值，在达到熔断条件时，自动开启熔断
2、开启熔断之后，如何实现自动恢复？每隔一段时间，释放一个请求到服务端进行探测，如果后端服务已经恢复，则自动恢复；

熔断器实现的三个状态机：
Closed：熔断器关闭状态，调用失败次数积累，到了阈值（或一定比例）则启动熔断机制；
Open：熔断器打开状态，此时对下游的调用都内部直接返回错误，不走网络，但设计了一个时钟选项，默认的时钟达到了一定时间（这个时间一般设置成平均故障处理时间，也就是MTTR），到了这个时间，进入半熔断状态；
Half-Open：半熔断状态，允许定量的服务请求，如果调用都成功（或一定比例）则认为恢复了，关闭熔断器，否则认为还没好，又回到熔断器打开状态；

皓月之明

关注

15
点赞
踩
62

收藏

觉得还不错? 一键收藏
7
评论
什么是服务降级和熔断（网络白话摘要）

伴随着微服务架构被宣传得如火如荼，一些概念也被吹的风生水起（管你接受不接受），其实大多数概念以前就有，但很少被提的这么频繁（现在好像不提及都不好意思交流了）。想起有人总结的一句话，微服务架构的特点就是：“一解释就懂，一问三不知，一谈就吵架”；首先为什么需要服务的熔断和降级呢？服务的稳定是公司可持续发展的重要基石，随着业务量的快速发展，一些平时正常运行的服务，会出现各种突发状况，而且在分布式...
复制链接

扫一扫