服务容错框架Sentinel入门

概述

Sentinel,阿里开源的一套用于服务容错的综合性解决方案。它以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度来保护服务的稳定性。分布式系统的流量防卫兵。

特征:

  • 丰富的应用场景:秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等
  • 完备的实时监控:实时的监控功能。通过控制台可以看到接入应用的单台机器秒级数据,甚至500台以下规模的集群的汇总运行情况
  • 广泛的开源生态:提供开箱即用的与其它开源框架/库的整合模块,如SpringCloud、Dubbo、gRPC。只需要引入相应的依赖并进行简单配置即可快速地接入Sentinel
  • 完善的SPI扩展点:提供简单易用、完善的SPI扩展接口。您可以通过实现扩展接口来快速地定制逻辑。例如定制规则管理、适配动态数据源

Sentinel分为两个部分:

  • 核心库:Java客户端,不依赖任何框架或库,能运行于所有Java运行时环境,对Dubbo、Spring Cloud等框架也有较好的支持
  • 控制台:Dashboard,基于Spring Boot开发,打包后可以直接运行。

实战

安装Sentinel Dashboard

Sentinel提供一个轻量级的控制台,具备机器发现、单机资源实时监控、集群资源汇总及规则管理等功能。从GitHub Release下载最新版,启动命令:java -Dserver.port=8080 -Dcsp.sentinel.dashboard.server=localhost:8080 -Dproject.name=sentinel-dashboard -jar sentinel-dashboard-1.8.6.jar

浏览器访问http://localhost:8080/,默认用户名密码:sentinel/sentinel。进入后会发现只有一个服务实例,也就是sentinel-dashboard本身
在这里插入图片描述

接入Dashboard

引入依赖:

<dependency>
	<groupId>com.alibaba.cloud</groupId>
	<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>

需要想要应用出现在Sentinel Dashboard监控列表里面,可以在应用配置文件里增加如下配置:

spring:
  cloud:
    sentinel:
      transport:
        port: 9999 # 跟控制台交流的端口,随意指定一个未使用的端口即可
        dashboard: localhost:8080 # 指定控制台服务的地址

实时监控

簇点链路

在这里插入图片描述
在这里插入图片描述

问题:

  1. 如何屏蔽这些静态路径URL?
  2. sentinel_default_context是什么?

机器列表

在这里插入图片描述
在这里插入图片描述
使用的版本号:

<dependency>
    <groupId>org.springframework.cloud</groupId>
    <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
    <version>0.2.1.RELEASE</version>
</dependency>

后升级到

<dependency>
   <groupId>com.alibaba.cloud</groupId>
   <artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
   <version>2.1.4.RELEASE</version>
</dependency>

在这里插入图片描述
手动移除,刷新页面:
在这里插入图片描述
另外有一个服务分子是0,不难分析出此服务已下线:
在这里插入图片描述
问题:

  1. 没有一键移除功能吗?
  2. 每次都要手动移除吗?
  3. 已经下线的服务,怎么从dashboard页面移除?

参考Sentinel/wiki/控制台#控制台配置项

但是,并没有解决问题。

集群流控

原理

项目结构

  • sentinel-core:核心模块,限流、降级、系统保护等
  • sentinel-dashboard:控制台模块,sentinel客户端可视化管理
  • sentinel-transport:传输模块,提供基本的监控服务端和客户端的API接口,以及一些基于不同库的实现
  • sentinel-extension:扩展模块,主要对DataSource进行部分扩展实现
  • sentinel-adapter:适配器模块,主要实现对一些常见框架的适配
  • sentinel-demo:样例模块
  • sentinel-benchmark:基准测试模块,对核心代码的精确性提供基准测试

概念:

  • 资源:Sentinel要保护的东西
  • 规则:用来定义如何进行保护资源

容错功能,主要体现为下面这三个:

  • 流量控制
    流量控制,它用于调整网络包的数据。任意时间到来的请求往往是随机不可控的,而系统的处理能力是有限的。我们需要根据系统的处理能力对流量进行控制。Sentinel作为一个调配器,可以根据需要把随机的请求调整成合适的形状
  • 熔断降级
    当检测到调用链路中某个资源出现不稳定的表现,例如请求响应时间长或异常比例升高的时候,则对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联故障。
    Sentinel对这个问题采取两种手段:
    1. 通过并发线程数进行限制
      Sentinel通过限制资源并发线程的数量,来减少不稳定资源对其它资源的影响。当某个资源出现不稳定的情况下,例如响应时间变长,对资源的直接影响就是会造成线程数的逐步堆积。当线程数在特定资源上堆积到一定的数量之后,对该资源的新请求就会被拒绝。堆积的线程完成任务后才开始继续接收请求。
    2. 通过响应时间对资源进行降级
      除了对并发线程数进行控制以外,Sentinel还可以通过响应时间来快速降级不稳定的资源。当依赖的资源出现响应时间过长后,所有对该资源的访问都会被直接拒绝,直到过了指定的时间窗口之后才重新恢复
  • 系统负载保护
    Sentinel同时提供系统维度的自适应保护能力。当系统负载较高的时候,如果还持续让请求进入可能会导致系统崩溃,无法响应。在集群环境下,会把本应这台机器承载的流量转发到其它的机器上去。如果这个时候其它的机器也处在一个边缘状态的时候,Sentinel提供对应的保护机制,让系统的入口流量和系统的负载达到一个平衡,保证系统在能力范围之内处理最多的请求

规则

Sentinel支持5种规则:

流控规则

监控应用流量的QPS或并发线程数等指标,当达到指定的阈值时对流量进行控制,以避免被瞬时的流量高峰冲垮,从而保障应用的高可用性。
在这里插入图片描述
阈值类型/单机阈值:

  • QPS:当调用该接口的QPS达到阈值的时候,进行限流
  • 并发线程数:当调用该接口的线程数达到阈值的时候,进行限流

sentinel共有三种流控模式:

  • 直接(默认):接口达到限流条件时,开启限流
  • 关联:当关联的资源达到限流条件时,开启限流,适合做应用让步
  • 链路:当从某个接口过来的资源达到限流条件时,开启限流。有点类似于针对来源配置项,区别在于:针对来源是针对上级微服务,而链路流控是针对上级接口,也就是说它的粒度更细。

流控效果

  • 快速失败:默认的,也是最简单的,直接失败抛出异常,不做任何额外的处理
  • Warm Up:它从开始阈值到最大QPS阈值会有一个缓冲阶段,一开始的阈值是最大QPS阈值的1/3,然后慢慢增长直到最大阈值,适用于将突然增大的流量转换为缓步增长的场景
  • 排队等待:让请求以均匀的速度通过,单机阈值为每秒通过数量,其余的排队等待;它还会让设置一个超时时间,当请求超过超时间时间还未处理,则会被丢弃。

降级规则

也叫熔断规则,Sentinel提供三个衡量条件:

  • 平均响应时间:当资源的平均响应时间超过阈值(以ms为单位)之后,资源进入准降级状态。如果接下来1s内持续进入5个请求,它们的RT都持续超过这个阈值,那么在接下的时间窗口(以s为单位)之内,就会对这个方法进行服务降级。
  • 异常比例:当资源的每秒异常总数占通过量的比值超过阈值之后,资源进入降级状态,即在接下的时间窗口(以s为单位)之内,对这个方法的调用都会自动地返回。异常比率的阈值范围是[0.0, 1.0]
  • 异常数:当资源近1分钟的异常数目超过阈值之后会进行服务降级。由于统计时间窗口是分钟级别的,若时间窗口小于60s,则结束熔断状态后仍可能再进入熔断状态。

热点规则

热点参数流控规则是一种更细粒度的流控规则,它允许将规则具体到参数上。参数例外项允许对一个参数的具体值进行流控

授权规则

需要根据调用来源来判断该次请求是否允许放行,这时候可以使用Sentinel的来源访问控制的功能。来源访问控制根据资源的请求来源(origin)限制资源是否通过:

  • 若配置白名单,则只有请求来源位于白名单内时才可通过;
  • 若配置黑名单,则请求来源位于黑名单时不通过,其余的请求通过。

系统规则

系统保护规则是从应用级别的入口流量进行控制,从单台机器的总体Load、RT、入口QPS、CPU使用率和线程数五个维度监控应用数据,让系统尽可能跑在最大吞吐量的同时保证系统整体的稳定性。
系统保护规则是应用整体维度的,而不是资源维度的,并且仅对入口流量(进入应用的流量)生效。

  • Load(仅对Linux/Unix-Like机器生效):当系统load1超过阈值,且系统当前的并发线程数超过系统容量时才会触发系统保护。系统容量由系统的maxQps * minRt计算得出。设定参考值一般是CPU cores * 2.5
  • RT:当单台机器上所有入口流量的平均RT达到阈值即触发系统保护,单位是毫秒。
  • 线程数:当单台机器上所有入口流量的并发线程数达到阈值即触发系统保护。
  • 入口QPS:当单台机器上所有入口流量的QPS达到阈值即触发系统保护。
  • CPU使用率:当单台机器上所有入口流量的CPU使用率达到阈值即触发系统保护。

规则持久化

Sentinel的理念是开发者只需要关注资源的定义,当资源定义成功,可以动态增加各种流控、降级规则。

Sentinel提供两种方式修改规则:

  • 通过API直接修改(loadRules)
  • 通过DataSource适配不同数据源修改

可以通过Dashboard来为每个Sentinel客户端设置各种各样的规则,这些规则默认是存放在内存中,所以需要将其持久化。

通过API修改规则比较直观:

FlowRuleManager.loadRules(List<FlowRule> rules); // 修改流控规则
DegradeRuleManager.loadRules(List<DegradeRule> rules); // 修改降级规则
SystemRuleManager.loadRules(List<SystemRule> rules); // 修改系统规则

DataSource扩展

上述loadRules()方法只接受内存态的规则对象,但应用重启后内存中的规则就会丢失,更多的时候规则最好能够存储在文件、数据库或者配置中心中。
DataSource接口提供对接任意配置源的能力。相比直接通过API修改规则,实现DataSource接口是更加可靠的做法。
官方推荐通过控制台设置规则后将规则推送到统一的规则中心,用户只需要实现DataSource接口,来监听规则中心的规则变化,以实时获取变更的规则。

DataSource拓展常见的实现方式:

  • 拉模式:客户端主动向某个规则管理中心定期轮询拉取规则,这个规则中心可以是SQL、文件,甚至是VCS等。这样做的方式是简单,缺点是无法及时获取变更;
  • 推模式:规则中心统一推送,客户端通过注册监听器的方式时刻监听变化,比如使用Nacos、Zookeeper等配置中心。这种方式有更好的实时性和一致性保证。

@SentinelResource

可用于指定出现异常时的处理策略。主要参数如下:

属性作用
value资源名称
entryTypeentry类型,标记流量的方向,取值IN/OUT,默认OUT
blockHandler处理BlockException的函数名称,函数要求:
1. 必须是public
2. 返回类型 参数与原方法一致
3. 默认需和原方法在同一个类中。若希望使用其他类的函数,可配置blockHandlerClass,并指定blockHandlerClass里面的方法
blockHandlerClass存放blockHandler的类,对应的处理函数必须static修饰
fallback用于在抛出异常的时候提供fallback处理逻辑。fallback函数可以针对所有类型的异常(除exceptionsToIgnore里面排除掉的异常类型)进行处理。函数要求:
1. 返回类型与原方法一致
2. 参数类型需要和原方法相匹配
3. 默认需和原方法在同一个类中。若希望使用其他类的函数,可配置fallbackClass,并指定fallbackClass里面的方法。
fallbackClass存放fallback的类。对应的处理函数必须static修饰
defaultFallback通用的fallback逻辑。默认fallback函数可以针对所有类型的异常进行处理。若同时配置fallback和defaultFallback,以fallback为准。函数要求:
1. 返回类型与原方法一致
2. 方法参数列表为空,或有一个Throwable类型的参数。
3. 默认需要和原方法在同一个类中。若希望使用其他类的函数,可配置fallbackClass,并指定fallbackClass里面的方法。
exceptionsToIgnore指定排除掉哪些异常。排除的异常不会计入异常统计,也不会进入fallback逻辑,而是原样抛出。
exceptionsToTrace需要trace的异常

源码分析

Node

节点作用
StatisticNode执行具体的资源统计操作
DefaultNode该节点持有指定上下文中指定资源的统计信息,当在同一个上下文中多次调用entry方法时,该节点可能下会创建有一系列的子节点。另外每个DefaultNode中会关联一个ClusterNode
ClusterNode该节点中保存资源的总体的运行时统计信息,包括rt,线程数,qps等等,相同的资源会全局共享同一个ClusterNode,不管他属于哪个上下文
EntranceNode该节点表示一棵调用链树的入口节点,通过他可以获取调用链树中所有的子节点

Slot

每种Slot的功能职责:

  • NodeSelectorSlot:负责收集资源的路径,并将这些资源的调用路径,以树状结构存储起来,用于根据调用路径来限流降级;
  • ClusterBuilderSlot:用于存储资源的统计信息以及调用者信息,例如该资源的 RT, QPS, thread count 等等,这些信息将用作为多维度限流,降级的依据;
  • StatisticsSlot:用于记录,统计不同维度的 runtime 信息;
  • SystemSlot:通过系统的状态,如load1等,来控制总的入口流量;
  • AuthoritySlot:根据黑白名单,来做黑白名单控制;
  • FlowSlot:用于根据预设的限流规则,以及前面slot统计的状态,来进行限流;
  • ParamFlowSlot:
  • DegradeSlot:通过统计信息,以及预设的规则,来做熔断降级;
  • LogSlot:

每个Slot执行完业务逻辑处理后,会调用fireEntry()方法,该方法将会触发下一个节点的entry方法,下一个节点又会调用其fireEntry(),以此类推直到最后一个Slot,由此就形成Sentinel的责任链。

对比

框架SentinelHystrixresilience4j
隔离策略信号量隔离(并发线程数限流)线程池隔离/信号量隔离信号量隔离
熔断降级策略基于响应时间、异常比率、异常数基于异常比率基于异常比率、响应时间
实时统计实现滑动窗口(LeapArray)滑动窗口(基于RxJava)Ring Bit Buffer
动态规则配置支持多种数据源支持多种数据源有限支持
扩展性多个扩展点插件的形式接口的形式
基于注解的支持支持支持支持
限流基于QPS,支持基于调用关系的限流有限的支持Rate Limiter
流量整形支持预热模式、匀速器模式、预热排队模式不支持简单的Rate Limiter模式
系统自适应保护支持不支持不支持
控制台提供开箱即用的控制台,可配置规则、查看秒级监控、机器发现等简单的监控查看不提供控制台,可对接其它监控系统

对比Hystrix

原则是一致的:当一个资源出现问题时,让其快速失败,不要波及到其它服务。

但是在限制的手段上,采取完全不一样的方法:

  • Hystrix采用的是线程池隔离的方式。优点:实现资源之间的隔离;缺点:增加线程切换的成本。
    Sentinel采用的是通过并发线程的数量和响应时间来对资源做限制。

参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

johnny233

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值