【spring系列】Alibaba Sentinel(3)降级详解

​ 除了流量控制以外,对调用链路中不稳定的资源进行熔断降级也是保障高可用的重要措施之一。由于调用关系的复杂性,如果调用链路中的某个资源不稳定,最终会导致请求发生堆积。Sentinel 熔断降级会在调用链路中某个资源出现不稳定状态时(例如调用超时或异常比例升高),对这个资源的调用进行限制,让请求快速失败,避免影响到其它的资源而导致级联错误。当资源被降级后,在接下来的降级时间窗口之内,对该资源的调用都自动熔断(默认行为是抛出 DegradeException)。

我们通常用以下几种方式来衡量资源是否处于稳定的状态:

  • 平均响应时间 (DEGRADE_GRADE_RT):当 1s 内持续进入 N 个请求,对应时刻的平均响应时间(秒级)均超过阈值(count,以 ms 为单位),那么在接下的时间窗口(DegradeRule 中的 timeWindow,以 s 为单位)之内,对这个方法的调用都会自动地熔断(抛出 DegradeException)。注意 Sentinel 默认统计的 RT 上限是 4900 ms,超出此阈值的都会算作 4900 ms,若需要变更此上限可以通过启动配置项 -Dcsp.sentinel.statistic.max.rt=xxx 来配置。
  • 异常比例 (DEGRADE_GRADE_EXCEPTION_RATIO):当资源的每秒请求量 >= N(可配置),并且每秒异常总数占通过量的比值超过阈值(DegradeRule 中的 count)之后,资源进入降级状态,即在接下的时间窗口(DegradeRule 中的 timeWindow,以 s 为单位)之内,对这个方法的调用都会自动地返回。异常比率的阈值范围是 [0.0, 1.0],代表 0% - 100%。
  • 异常数 (DEGRADE_GRADE_EXCEPTION_COUNT):当资源近 1 分钟的异常数目超过阈值之后会进行熔断。注意由于统计时间窗口是分钟级别的,若 timeWindow 小于 60s,则结束熔断状态后仍可能再进入熔断状态。
    在这里插入图片描述

1.RT测试

官方说当 1s 内持续进入 N 个请求,对应时刻的平均响应时间均超过阈值,那么在接下的时间窗口之内,对这个方法的调用都会自动地熔断
在这里插入图片描述
如果有如上设置,我是不是可以理解如果1秒内发送了2个请求平均超过10毫秒,在接下来的5秒内会报异常。答案是当然不是,要超过5个请求才可以有的文章中说5个,我还以为是错误的,直到我看到源码,才恍然大悟。

降级源码DegradeRule.passCheck

// 这里进行降级验证,返回false抛出DegradeException异常
public boolean passCheck(Context context, DefaultNode node, int acquireCount, Object... args) {
        if (cut.get()) {
            return false;
        }

        ClusterNode clusterNode = ClusterBuilderSlot.getClusterNode(this.getResource());
        if (clusterNode == null) {
            return true;
        }
//grade降级类型,这几个if else 对应 RT/异常比例/异常数
    
    // RT验证
        if (grade == RuleConstant.DEGRADE_GRADE_RT) {
            // 计算平均时长
            double rt = clusterNode.avgRt();
            // 如果平均时长小于阈值,则清理之前的异常数
            if (rt < this.count) {
                passCount.set(0);
                return true;
            }

            // Sentinel will degrade the service only if count exceeds.
            // 这里说明,如果通过平均时长大于阈值的话,异常次数进行累加,如果达到rtSlowRequestAmount(默认为5)次之后会,才会返回false。
            if (passCount.incrementAndGet() < rtSlowRequestAmount) {
                return true;
            }
        } else if (grade == RuleConstant.DEGRADE_GRADE_EXCEPTION_RATIO) {
            // 异常数/滑动窗口的长度,因为默认是1 ,这里可以简单的认为是异常数量
            double exception = clusterNode.exceptionQps();
            // 成功数量 能成功访问到资源的请求数量(包括异常的数量,因为异常的请求也是到controller中再抛的异常)
            double success = clusterNode.successQps();
            // 总数量  passQps + blockQps
            double total = clusterNode.totalQps();
            // If total amount is less than minRequestAmount, the request will pass.
            // 总数量达不到5 返回true
            if (total < minRequestAmount) {
                return true;
            }

            // In the same aligned statistic time window, 在同一个对齐的统计时间窗口中,
            // "success" (aka. completed count) = exception count + non-exception count (realSuccess)
            // 获取到正常返回的数量
            double realSuccess = success - exception;
            //当没有正常的返回的时候,并且异常数量小于5的时候,返回true
            //个人认为是因为数量太少,可能网络波动问题,个别请求直接忽略了
            if (realSuccess <= 0 && exception < minRequestAmount) {
                return true;
            }
			// 这里进行判断,如果异常数超过阈值,则进行限制。
            //比如设置0.5 ,count = 0.5
            // 50个异常/100个success(success包括异常数)<0.5
            if (exception / success < count) {
                return true;
            }
        } else if (grade == RuleConstant.DEGRADE_GRADE_EXCEPTION_COUNT) {
            // 判断异常数量,如果则返回false。
            double exception = clusterNode.totalException();
            if (exception < count) {
                return true;
            }
        }

        if (cut.compareAndSet(false, true)) {
            ResetTask resetTask = new ResetTask(this);
            pool.schedule(resetTask, timeWindow, TimeUnit.SECONDS);
        }

        return false;
    }

看到源码了解,每秒钟记录该时刻是否应该抛出异常,累计5次之后,也就5秒后,发现异常数达到5,才会抛出。

测试想法是否正确

上面设置不变,添加hello接口。

    @GetMapping(value = "/hello")
    public String hello()  {
        try {
            Thread.sleep(300);
        } catch (InterruptedException e) {
            e.printStackTrace();
        }
        return "SUCCESS";
    }

在这里插入图片描述
jmeter添加15秒中,每秒一次。前5秒返回正常,这5秒中其实每次都触发了passCount的增加。第6次请求时,passCount超过5次,设置的5秒的时间窗口生效。5秒后时间窗口过期了后,访问正常。
在这里插入图片描述

2.异常比例

在这里插入图片描述

异常比例需要输入一个0~1之间的小数,如果进入资源中的异常数达到阈值,则会进行时间窗口的降级。降级抛DegradeException异常。但是需要看下源码,如果请求的数量太少,不会触发降级。

3.异常数

在这里插入图片描述

思路比较简单,逻辑也简单,需要注意的是时间单位哦,这里是分钟内的异常数。

参考资料

官方参考

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

叁滴水

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值