服务治理的三种服务保护方法：熔断、限流、降级。

最新推荐文章于 2024-12-11 11:27:55 发布

路辛

最新推荐文章于 2024-12-11 11:27:55 发布

阅读量1.5k

点赞数

文章标签：微服务

本文链接：https://blog.csdn.net/Myiad_wly/article/details/118520825

版权

最近在看陈皓的一些课，感触很深，这里大概记录一下心得。

一、熔断

熔断的目的

个人理解，熔断大多来源于：有限时间内过多的重试。之所以重试这么多次，可能是服务端或者请求方本身出现了问题。而引入熔断之后，可能避免过多无意义的失败请求。若服务方出现问题，请求方被熔断，从而使得请求方不会继续盲目调用。若请求方本身出现问题，也可以让请求方直接失败，避免自身无意义的等待或阻塞。

熔断器的状态

熔断器可以使用状态机来实现。

闭合（Closed）状态：关闭熔断。我们需要一个调用失败的计数器，如果调用失败，则使失败次数加 1。如果最近失败次数超过了在给定时间内允许失败的阈值，则切换到断开 (Open) 状态。此时开启了一个超时时钟，经过一定的时间之后，会切换到半断开（Half-Open）状态。过了这段时间之后，进入半断开目的是让系统有机会来修正错误，以回到正常工作的状态。在 Closed 状态下，错误计数器是基于时间的。在特定的时间间隔内会自动重置。这能够防止由于某次的偶然错误导致熔断器进入断开状态。也可以基于连续失败的次数。

打开 (Open) 状态：打开熔断。在该状态下，对应用程序的请求会立即返回错误响应，而不调用后端服务。这样也许比较粗暴，有些时候，我们可以 cache 住上次成功请求，直接返回缓存（当然，这个缓存放在本地内存就好了），如果没有缓存再返回错误（缓存的机制最好用在全站一样的数据，而不是用在不同的用户间不同的数据，因为后者需要缓存的数据有可能会很多）。

半开（Half-Open）状态：允许应用程序一定数量的请求去调用服务。如果这些请求对服务的调用成功，那么可以认为之前导致调用失败的错误已经修正，此时熔断器切换到闭合状态 (并且将错误计数器重置)。如果这一定数量的请求有调用失败的情况，则认为导致之前调用失败的问题仍然存在，熔断器切回到断开状态，然后重置计时器来给系统一定的时间来修正错误。半断开状态能够有效防止正在恢复中的服务被突然而来的大量请求再次拖垮。

调用失败过多，触发熔断，熔断器处于打开状态。

熔断打开后，阻拦后续的用户请求，过了一定时间(会设置一个超时时间)，自动切换到半打开状态。

半打开状态下，熔断器会释放一部分请求，试探系统是否恢复正常。如果这部分请求都成功了，那么熔断就会关闭，用户正常请求，不会再被阻拦。

熔断机制的设计

1.错误类型的判定。有些请求，经过重试后再触发熔断。有的请求需要直接触发熔断，比如服务端已经瘫痪。所以我们需要对报错的类型进行判定。是先重试，还是说上来应该直接熔断。

2.对服务端探活。对于远程服务瘫痪的情况下。就应该单独设置一个探活机制，而不是等待熔断器默认的超时机制(超过一定时间变成半打开状态)，熔断器直接对服务端进行探活。当服务端可用时，就可以直接变为半打开状态。

3.熔断可手动重置。管理人员可以按照当前情况进行熔断手动控制。

4.并发无影响。熔断器本身不应该影响高并发状态下，各个请求的执行状态。对于请求本身应该是无侵入的。不会影响并发结果。

5.熔断控制粒度。熔断应该针对具体资源来说，比如Redis-cluster模式下，不能因为某一个节点流量过高，而限制对所有节点的访问。(虽然redis本身对请求具有很好的哈希分散，这里仅仅举个例子)

6.日志记录。熔断器本身硬具有日志监控功能，记录失败和尝试的情况。以便了解熔断器下的业务调用状态。

7.熔断的触发场景可能非常负责。有时候，我们发现大量请求方调用服务都会失败。但是我们探活服务端是存活的。这时候，可能是服务端的问题，也可能是客户端的问题。比如业务请求需要在服务端落盘，而服务端所在机器的磁盘出现问题，这是探活探不到的，导致每一次请求都会失败或者超时。再比如我们客户端请求方本身代码有问题，导致无法正常对服务端调用，这时候，反而不应该进行熔断。

二、限流

限流的目的

1.为了向用户承诺SLA的指标。我们保证我们的系统在某个速度下的响应时间以及可用性。

SLA是服务等级协议，常见的指标为：可用性、准确性、系统容量和延迟

2.可以用来阻止在多租户的情况下，某一用户把资源耗尽而让所有的用户都无法访问的问题。

3.能够顶得住突发的流量。

4.节约成本。我们目的就是在有限的资源下能够承受比较高的流量。

限流的种类

拒绝服务

一般来说，好的限流系统在受到流量暴增时，会统计当前哪个客户端来的请求最多，直接拒掉这个客户端，这种行为可以把一些不正常的或者是带有恶意的高并发访问抵挡掉。

服务降级

降级有很多方式，一种是把一些不重要的服务给停掉，把 CPU、内存或是数据的资源让给更重要的功能；一种是不再返回全量数据，只返回部分数据。(因为全量数据需要做 SQL Join 操作，部分的数据则不需要，所以可以让 SQL 执行更快，还有最快的一种是直接返回预设的缓存，以牺牲一致性的方式来获得更大的性能吞吐)

特权请求

所谓特权请求的意思是，资源不够了，我只能把有限的资源分给重要的用户，比如：分给权利更高的 VIP 用户。在多租户系统下，限流的时候应该保大客户的，所以大客户有特权可以优先处理。

延时处理

在这种情况下，一般会有一个队列来缓冲大量的请求，这个队列如果满了，那么就只能拒绝用户了，如果这个队列中的任务超时了，也要返回系统繁忙的错误了。使用缓冲队列只是为了减缓压力，一般用于应对短暂的峰刺请求。（这也就是MQ所谓的削峰的功能）

弹性伸缩

动用自动化运维的方式对相应的服务做自动化的伸缩。这个需要一个应用性能的监控系统，能够感知到目前最繁忙的 TOP 5 的服务是哪几个。

限流的具体方式

计数器算法

采用计数器实现限流有点简单粗暴，一般我们会限制一秒钟的能够通过的请求数，比如限流qps为100，算法的实现思路就是从第一个请求进来开始计时，在接下去的1s内，每来一个请求，就把计数加1，如果累加的数字达到了100，那么后续的请求就会被全部拒绝。等到1s结束后，把计数恢复成0，重新开始计数。

具体的实现可以是这样的：对于每次服务调用，可以通过 AtomicLong#incrementAndGet()方法来给计数器加1并返回最新值，通过这个最新值和阈值进行比较。

这种实现方式，相信大家都知道有一个弊端：如果我在单位时间1s内的前10ms，已经通过了100个请求，那后面的990ms，只能眼巴巴的把请求拒绝，我们把这种现象称为“突刺现象”

漏桶算法

以固定速率从桶中流出水滴，以任意速率往桶中放入水滴，桶容量大小是不会发生改变的。

因为桶中的容量是固定的，如果流入水滴的速率 > 流出的水滴速率，桶中的水滴可能会溢出。那么溢出的水滴请求都是拒绝访问的，或者直接调用服务降级方法。前提是同一时刻

对于很多应用场景来说，除了要求能够限制数据的平均传输速率外，还要求允许某种程度的突发传输。这时候漏桶算法可能就不合适了，令牌桶算法更为适合。

令牌桶算法

算法会以规定的速率往令牌桶中放入 token，用户请求必须获取到令牌桶中的 token才可以调用我们的服务，如果没有从令牌桶中获取到 token ，拒绝访问。在高并发情况下，如果我们的请求过多超出了令牌桶生成令牌的速度，这时候请求就会被驳回，提示请稍后重试！优势：能够控制请求的速率。

并不能说明令牌桶一定比漏洞好，她们使用场景不一样。令牌桶可以用来保护自己，主要用来对调用者频率进行限流，为的是让自己不被打垮。所以如果自己本身有处理能力的时候，如果流量突发（实际消费能力强于配置的流量限制），那么实际处理速率可以超过配置的限制。而漏桶算法，是用来保护被我们调用的第三方系统，是一种自我控制。主要场景是，当调用的第三方系统本身没有保护机制，或者有流量限制的时候，我们的调用速度不能超过他的限制，由于我们不能更改第三方系统，所以只有在主调方控制。这个时候，即使流量突发，也必须舍弃。因为消费能力是第三方决定的。