服务容错
为什么需要服务容错?
服务之间存在调用关系,如果被调用服务down掉,处理不及时的话,就会造成雪崩效应,又称之为级联故障、级联失效(cascading failure)。
解决方案
-
超时处理
-
限流
-
仓壁模式(设置独立线程池,空间相对隔离)
- 断路器模式(监控+开关)出自于 : https://martinfowler.com/bliki/CircuitBreaker.html
当前流行框架
Hystrix
Sentinel
what's sentinel?
Sentinel 以流量为切入点,从流量控制、熔断降级、系统负载保护等多个维度保护服务的稳定性。
主要特征
-
丰富的应用场景
Sentinel 承接了阿里巴巴近 10 年的双十一大促流量的核心场景,例如秒杀(即突发流量控制在系统容量可以承受的范围)、消息削峰填谷、集群流量控制、实时熔断下游不可用应用等。
-
完备的实时监控
Sentinel 同时提供实时的监控功能。您可以在控制台中看到接入应用的单台机器秒级数据,甚至 500 台以下规模的集群的汇总运行情况。
-
广泛的开源生态
Sentinel 提供开箱即用的与其它开源框架/库的整合模块,例如与 Spring Cloud、Dubbo、gRPC 的整合。您只需要引入相应的依赖并进行简单的配置即可快速地接入 Sentinel。
-
完善的SPI拓展点
Sentinel 提供简单易用、完善的 SPI 扩展接口。您可以通过实现扩展接口来快速地定制逻辑。例如定制规则管理、适配动态数据源等。
Sentinel 2大模块
- 核心库(Java客户端),不依赖任何框架/库,能够运行于所有 Java 运行时环境,同时对 Dubbo / Spring Cloud 等框架也有较好的支持。
- 控制台(Dashboard)基于 Spring Boot 开发,打包后可以直接运行,不需要额外的 Tomcat 等应用容器。
如何整合Sentinel
<!--整合Sentinel-->
<dependency>
<groupId>org.springframework.cloud</groupId>
<artifactId>spring-cloud-starter-alibaba-sentinel</artifactId>
</dependency>
启动应用就可以看到 /actuator/sentinel
.(需要暴露endpoint)
management:
endpoints:
web:
exposure:
include: sentinel
配置Sentinel控制台
spring:
cloud:
sentinel:
transport:
# 指定sentinel 控制台的地址
dashboard: localhost:8080
流控规则
-
流量模式
- 直接
- 关联(设定
关联资源
之后,主资源将会收到关联资源的流量限制影响) - 链路(只记录指定链路上的流量)
-
流控效果
- 快速失败(
com.alibaba.csp.sentinel.slots.block.flow.controller.DefaultController
) - Warm Up(预热) 限流---冷启动)
com.alibaba.csp.sentinel.slots.block.flow.controller.WarmUpController
- 场景:秒杀
- 排队等待
com.alibaba.csp.sentinel.slots.block.flow.controller.RateLimiterController
- 场景:突发请求
- 快速失败(
-
代码添加流控规则
@GetMapping("/test-code-flow-rule") public String testCodeQPSRule() { initFlowQpsRule("/share/1"); return "success"; } /** * 代码添加流控规则 -> QPS * * @param resourceName 需要限制的资源名称 */ private void initFlowQpsRule(String resourceName) { List<FlowRule> ruleList = new ArrayList<>(); FlowRule rule = new FlowRule(resourceName); // set limit qps to 20 rule.setCount(20); rule.setGrade(RuleConstant.FLOW_GRADE_QPS); rule.setLimitApp("default"); ruleList.add(rule); FlowRuleManager.loadRules(ruleList); }
降级规则
源码:com.alibaba.csp.sentinel.slots.block.degrade.DegradeRule#passCheck
-
平均响应时间 - RT - ResponseTime
- RT默认最大4900ms(通过
-Dcsp.sentinel.statistic.max.rt=xxx
修改)
- RT默认最大4900ms(通过
-
异常比例
-
异常数
热点规则
源码:com.alibaba.csp.sentinel.slots.block.flow.param.ParamFlowChecker#passCheck
可对固定参数或者参数值进行限流
-
注意点
- 参数索引 开始索引的参数类型必须是
基本类型
或者String
- 参数索引 开始索引的参数类型必须是
-
适用场景
- 适用于存在特定的热点参数
系统规则
源码:link
-
Load
当系统load1(1分钟的load)超过阈值,且并发线程数超过系统容量时触发,建议设置为CPU核心数 * 2.5(仅适用于Linux / Unix 机器生效)
使用
uptime
命令查看load- 系统容量 = maxQPS * min RT
-
RT
所有入口流量的平均响应时间达到阈值触发
-
线程数
所有入口流量的并发线程数达到阈值触发
-
入口QPS
所有入口流量的QPS达到阈值触发
授权规则
Sentinel组件与控制台通信原理
-
注册/心跳发送
源码:
com.alibaba.csp.sentinel.transport.heartbeat.SimpleHttpHeatbeatSender
-
通信API
源码:
com.alibaba.csp.sentinel.command.CommandHandler
控制台配置
-
应用连接控制台配置信息
spring: cloud: sentinel: transport: # 指定sentinel 控制台的地址 dashboard: localhost:8080 # 指定和控制台通信的IP # 如不配置,会自动选择一个IP注册 client-ip: 127.0.0.1 # 指定和控制台通信的端口,默认值为8719 # 如不设置,会自动从8719开始扫描,依次+1,直到找到未被使用的端口 port: 8719 # 心跳发送周期,默认值为null # 但在SimpleHttpHeartbeatSender 会使用默认值10s heartbeat-interval-ms: 10000
-
控制台配置信息
配置项 | 默认值 | 最小值 | 描述 |
---|---|---|---|
server.port | 8080 | 指定端口 | |
csp.sentinel.dashboard.server | localhost:8080 | 指定地址 | |
project.name | 指定程序名称 | ||
sentinel.dashboard.auth.username [version>=1.6] | sentinel | Dashboard登陆账户 | |
sentinel.dashboard.auth.password[version>=1.6] | sentinel | Dashboard登陆密码 | |
server.servlet.session.timeout[version>=1.6] | 30 mins | 登陆Session过期时间 配置为7200表示7200s 配置为60m表示60分钟 |
使用方法
java -jar -Dsentinel.dashboard.auth.username=isaac -Dsentinel.dashboard.auth.password=isaac -Dserver.port=1111 sentinel-dashboard-1.6.2.jar