springcloud服务容错

darknethunter

于 2023-10-11 15:34:45 发布

阅读量118

点赞数

本文链接：https://blog.csdn.net/darknethunter/article/details/133771625

版权

服务容错

4.1 服务雪崩

如果一个服务出现了问题，调用这个服务就会出现线程阻塞的情况，此时若有大量的请求涌入，就会出现多条线程阻塞等待，进而导致服务瘫痪**。由于服务与服务之间的依赖性，故障会传播，会对整个微服务系统造成灾难性的严重后果，这就是服务故障的“雪崩效应”** 。

4.2 容错方案

常见的容错思路有隔离、超时、限流、熔断、降级这几种。

1、隔离

它是指将系统按照一定的原则划分为若干个服务模块，**各个模块之间相对独立，无强依赖。当有故障发生时，能将问题和影响隔离在某个模块内部，而不扩散风险，不波及其它模块，不影响整体的系统服务。**常见的隔离方式有：线程池隔离和信号量隔离。

2、超时

在不做任何处理的情况下，服务提供者不可用会导致请求线程强制等待，而造成系统资源耗尽。加入超时机制后，一旦发生超时，就会释放资源。由于释放资源速度较快，一定程序上可以抑制资源耗尽的问题。

3、限流

限流就是限制业务访问的QPS（每秒请求次数）避免服务因流量的激增而发生故障，从而达到保护系统的目的。

4、熔断

**远程服务不稳定或网络抖动时暂时关闭就叫做熔断。断路器会实时监测应用，如果发现在一定时间内失败次数或失败率达到一定的阈值就会熔断，此时访问业务的一切请求都会被拦截下来。**熔断一定时间（如10秒）后，断路器会进入半开状态，此时允许一次访问业务的请求，如果成功则断路器关闭，应用正常调用；如果请求依然不成功，断路器继续回到熔断开启状态，过段时间再进入半熔断状态。服务熔断一般有三种状态：

熔断关闭状态（Closed）：服务没有故障时，熔断器所处的状态，对调用方的调用不做任何限制
熔断开启状态（Open）：后续对该服务接口的调用不再经过网络，直接执行本地的fallback方法
半熔断状态（Half-Open）：尝试恢复服务调用，允许有限的流量调用该服务，并监控调用成功率。如果成功率达到预期，则说明服务已恢复，进入熔断关闭状态；如果成功率仍旧很低，则重新进入熔断关闭状态。

5、降级

降级就是当某个发生服务熔断后，服务将不再被调用，此时客户端可以自己准备一个本地的fallback回调来返回一个缺省值，它其实就是为服务提供一个兜底方案。

4.3 容错组件Sentinel

4.3.1 定义

Sentinel是阿里巴巴开源的一款微服务流量控制组件。

4.3.2 特征:

• 丰富的应用场景 ：Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景，例如秒杀（即突发流量控制在系统容量可以承受的范围）、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。

• 完备的实时监控 ：Sentinel 同时提供实时的监控功能。您可以在控制台中看到接入应用的单台机器秒级数据，甚至 500 台以下规模的集群的汇总运行情况。

• 广泛的开源生态 ：Sentinel 提供开箱即用的与其它开源框架/库的整合模块，例如与 Spring Cloud、Dubbo的整合。您只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。

• 完善的 SPI 扩展点 ：Sentinel 提供简单易用、完善的 SPI 扩展接口。您可以通过实现扩展接口来快速地定制逻辑。例如定制规则管理、适配动态数据源等。

4.3.3 功能

1、流量控制

流量控制（flow control），其原理是监控应用流量的 QPS 或并发线程数等指标，当达到指定的阈值时对流量进行控制，以避免被瞬时的流量高峰冲垮，从而保障应用的高可用性。

2、熔断降级

熔断降级是解决雪崩问题的重要手段。其思路是由 断路器统计服务调用的异常比例、慢请求比例，如果超出阈值则会熔断该服务。即拦截访问该服务的一切请求；而当服务恢复时，断路器会放行访问该服务的请求。

断路器控制熔断和放行是通过状态机来完成的：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

3、系统负载保护

Sentinel 系统自适应过载保护从整体维度对应用入口流量进行控制，结合应用的 Load、CPU 使用率、总体平均 RT、入口 QPS 和并发线程数等几个维度的监控指标，通过自适应的流控策略，让系统的入口流量和系统的负载达到一个平衡，让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。

4.3.4 Sentinel规则

Ⅰ、流控规则

1、QPS（每秒请求次数）流控

2、并发线程数流控（与qps区别？）

3、统一异常处理

4、流控模式

直接流控模式

直接流控模式是最简单的模式，当指定的接口达到限流条件时开启限流。上面案例使用的就是直接流控模式。

关联流控模式

链路流控模式

5、流控效果

快速失败（默认）: 是默认的流量控制方式，当QPS超过任意规则的阈值后，新的请求就会被立即拒绝，拒绝方式为抛出 FlowException 。这种方式适用于对系统处理能力确切已知的情况下，比如通过压测确定了系统的准确水位时。

Warm Up（预热）：即预热/冷启动方式。当系统长期处于低水位的情况下，当流量突然增加时，直接把系统拉升到高水位可能瞬间把系统压垮。通过"冷启动"，让通过的流量缓慢增加，在一定时间内逐渐增加到阈值上限，给冷系统一个预热的时间，避免冷系统被压垮。冷加载因子：codeFactor默认是3，即请求QPS 从 threshold / 3 开始，经预热时长逐渐升至设定的 QPS 阈值。

排队等待：会严格控制请求通过的间隔时间，也即是让请求以均匀的速度通过，对应的是漏桶算法。

Ⅱ、熔断规则

熔断规则就是设置当满足什么条件的时候，对服务进行降级。它通过是在服务消费端来进行配置。

1、慢调用比例

选择以慢调用比例作为阈值，需要设置允许的慢调用 RT（即最大的响应时间），请求的响应时间大于该值则统计为慢调用。当单位统计时长（statIntervalMs ）内请求数目大于设置的最小请求数目，并且慢调用的比例大于阈值，则接下来的熔断时长内请求会自动被熔断。

2、异常比例

当单位统计时长（statIntervalMs ）内请求数目大于设置的最小请求数目，并且异常的比例大于阈值，则接下来的熔断时长内请求会自动被熔断。

3、异常数

当单位统计时长内的异常数目超过阈值之后会自动进行熔断。

Ⅲ、热点规则

热点即经常访问的数据。很多时候我们希望统计某个热点数据中访问频次最高的 Top K 数据，并对其访问进行限制。

商品 ID 为参数，统计一段时间内最常购买的商品 ID 并进行限制
用户 ID 为参数，针对一段时间内频繁访问的用户 ID 进行限制

热点参数限流会统计传入参数中的热点参数，并根据配置的限流阈值与模式，对包含热点参数的资源调用进行限流。热点参数限流可以看做是一种特殊的流量控制，仅对包含热点参数的资源调用生效。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

Ⅳ、授权规则

使用 Sentinel 的来源访问控制（黑白名单控制）的功能。来源访问控制根据资源的请求来源（origin ）限制资源是否通过，若配置白名单则只有请求来源位于白名单内时才可通过；若配置黑名单则请求来源位于黑名单时不通过，其余的请求通过。

有以下配置项：

resource ：资源名，即限流规则的作用对象。
limitApp ：对应的黑名单/白名单，不同 origin 用 , 分隔，如 appA,appB 。
strategy ：限制模式，AUTHORITY_WHITE 为白名单模式， AUTHORITY_BLACK 为黑名单模式，默认为白名单模式。

V、系统规则

系统保护规则是从应用级别的入口流量进行控制，从单台机器的 load、CPU 使用率、平均 RT、入口 QPS 和并发线程数等几个维度监控应用指标，让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。系统保护规则是应用整体维度的，而不是资源维度的，并且仅对入口流量 (进入应用的流量) 生效。

Load 自适应（仅对 Linux/Unix-like 机器生效）：系统的 load1 作为启发指标，进行自适应系统保护。当系统 load1 超过设定的启发值，且系统当前的并发线程数超过估算的系统容量时才会触发系统保护（BBR 阶段）。系统容量由系统的 maxQps * minRt 估算得出。设定参考值一般是 CPU cores *2.5 。
CPU usage（1.5.0+ 版本）：当系统 CPU 使用率超过阈值即触发系统保护（取值范围 0.0-1.0），比较灵敏。
平均 RT：当单台机器上所有入口流量的平均 RT 达到阈值即触发系统保护，单位是毫秒。
并发线程数：当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
入口 QPS：当单台机器上所有入口流量的 QPS 达到阈值即触发系统保护