除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。一个服务常常会调用别的模块,可能是另外的一个远程服务、数据库,或者第三方 API 等。例如,支付的时候,可能需要远程调用银联提供的 API;查询某个商品的价格,可能需要进行数据库查询。然而,这个被依赖服务的稳定性是不能保证的。如果依赖的服务出现了不稳定的情况,请求的响应时间变长,那么调用服务的方法的响应时间也会变长,线程会产生堆积,最终可能耗尽业务自身的线程池,服务本身也变得不可用。
现代微服务架构都是分布式的,由非常多的服务组成。不同服务之间相互调用,组成复杂的调用链路。以上的问题在链路调用中会产生放大的效果。复杂链路上的某一环不稳定,就可能会层层级联,最终导致整个链路都不可用。因此我们需要对不稳定的弱依赖服务调用进行熔断降级,暂时切断不稳定调用,避免局部不稳定因素导致整体的雪崩。熔断降级作为保护自身的手段,通常在客户端(调用端)进行配置。
1、熔断策略
熔断时长:单位为 s,2意思是2秒内不可用
最小请求数:熔断触发的最小请求数,请求数小于该值时即使异常比率超出阈值也不会熔断
1.1、慢调用比例 (SLOW_REQUEST_RATIO)
选择以慢调用比例作为阈值,需要设置允许的慢调用 RT(即最大的响应时间),请求的响应时间大于该值则统计为慢调用。
当单位统计时长(statIntervalMs)内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。(默认1秒内请求数目大于设置的最小请求数目,并且慢调用的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。)
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
-
最大 RT(响应时间):200意思是 在200毫秒处理完这个请求
-
比例阀值:0~1之间。
-
慢调用比例
:例如1秒内请求10次,8次是慢请求,则慢请求比例 0.8 -
java 接口响应时间为睡眠400毫秒
根据上述可以看出触发必要条件后才会降级:
- 请求时间 > RT
- 单位统计时长(statIntervalMs)> 最小请求数
- 慢比例调用比例 > 比例阀值(maxSlowRequestRatio)
- 触发熔断后进入探测恢复状态(HALF-OPEN 状态),下一个请求响应时间小于设置的慢调用 RT 则结束熔断否则会再次被熔断
参考源码:sentinel-core\1.8.0\sentinel-core-1.8.0.jar!\com\alibaba\csp\sentinel\slots\block\degrade\circuitbreaker\ResponseTimeCircuitBreaker.class中handleStateChangeWhenThresholdExceeded方法
如下是我的一次降级调用,接口中休眠400毫秒,1s内连续请求5次后
异常抛出
如下是我多次往复测试,不太好测试。需要参考 经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求响应时间小于设置的慢调用 RT 则结束熔断,若大于设置的慢调用 RT 则会再次被熔断。
1.2、异常比例 (ERROR_RATIO)
当单位统计时长(statIntervalMs 以 s 为单位)内请求数目大于设置的最小请求数目,并且异常的比例大于阈值,则接下来的熔断时长内请求会自动被熔断。
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
同慢调用比例相似,逻辑相似
- java代码
@RequestMapping(value = "test")
public String test(String code) {
long remainder = System.currentTimeMillis() % 2;
if(remainder == 0 || StringUtils.isNotBlank(code)){
int i = 10/0;
}
return "code";
}
- 策略
- 请求数大于5后,异常比例占比 5% 开始走熔断降级策略
1.3、异常数 (ERROR_COUNT)
当单位统计时长(1s)内的异常数目超过阈值之后会自动进行熔断。
经过熔断时长后熔断器会进入探测恢复状态(HALF-OPEN 状态),若接下来的一个请求成功完成(没有错误)则结束熔断,否则会再次被熔断。
注意由于统计时间窗口是分钟级别的,若timeWindow小于 60s,则结束熔断状态后仍可能再进入熔断状态;
同慢调用比例相似,逻辑相似
代码中未传递参数时可以看出异常概率应该在50%左右,从图中前部分可以看出,平均请求未出现熔断,因为请求间隔时间较长,当后半部分,1秒内多次请求时出现熔断了,老版本是以分钟来统计的,新版是秒为单位
!!!!SpringCloudAlibaba项目集成代码示例!!!