《亿级流量系统架构设计与实战》第三章通用的服务可用性治理手段

最新推荐文章于 2024-08-24 20:40:44 发布

CyberQueen

最新推荐文章于 2024-08-24 20:40:44 发布

阅读量19

点赞数

文章标签：系统架构

内容总结自《亿级流量系统架构设计与实战》

接口超时情况：

失败是否重试：

重试的退避策略：

重试风险:

规避重试风险:

非关键下游服务，失败不重试
当遇到下游服务为限流错误或熔断错误时，不再重试
防止重试风暴，在接收到上级请求后，检查这个请求是否为上级请求的重试请求，如果是，则在调用下游服务遇到失败时不再重试请求，防止请求量被级联放大。重试请求需要额外携带重试请求标记
计算一段时间内，重试请求总数与正常请求总数的比例（重试请求比），小于某个特定值时允许重试

由于网络原因或服务设计问题，微服务一般很难保证100%对外可用。如A->B->C->D，D因为请求量突增或设计不合理导致宕机，导致C服务请求大量阻塞，最终拖垮B和A

熔断器（在业务上游）三种状态

Closed：默认关闭，此时认为下游服务可正常提供服务
Open：当服务失败率到达一定阈值后，则会开启，此时认为下游服务不可用，即不再对此下游服务进行请求
Half-Open：熔断器Open一段时间后，会进入该状态，此状态允许一个请求尝试调用下游服务，如果下游调用成功，则状态置为Closed，如果下游服务失败，则状态置为Open

资源共享：

资源隔离：

接口必备幂等特性（读接口天然具备幂等）
幂等性 = 请求接口携带唯一ID + 下游接口具备幂等校验策略

请求接口携带唯一ID：

下游接口具备幂等校验策略：

单机实例（单服务、服务集群）限流+固定阈值：某机器实例（单服务、服务集群）在N秒内可处理M个请求：

自适应限流：

借助消息队列：注意服务过载（消息堆积）
基于请求排队时间：如微信的过载控制系统Dagor，优先保证业务优先级或用户优先级更高的请求被允许通过，而低业务优先级、低用户优先级的请求被丢弃。排队时间=请求开始被处理时间-请求到达服务时间，设置平均排队时间阈值是20ms，如果请求排队时间超过20ms，则认为服务过载，触发限流
基于延迟比率：如Netflix的自适应限流组件concurrency-limits，其借鉴TCP拥塞控制的部分思想，其中的gradient算法实现如下，new_limit(真是的限流) = current_limit(当前限流窗口的大小) * （RRT_noload(无负载时最佳请求延迟) ➗ RRT_actual(当前请求采样请求延迟)） + queue_size(允许一定程度的排队，一般为current_limit的平方根)
其他：bilibili的Kratos微服务中的BBR limiter，其算法实现时使用CPU的负载做启发阈值，
a. 判断CPU负载是否超过默认值80%
b. 如果超过阈值，则判定服务当前正在处理的请求数是否大于服务最近最大吞吐量
ⅰ. 是，则请求丢低
ⅱ. 否，请求可以被处理
c. 如果没有超过阈值，则判定上次请求被丢失的时间距现在是否拆过1s
ⅰ. 超过1s，则请求可以被执行
ⅱ. 没有超过1s，继续判定服务当前正在处理的请求数是否大于服务最近最大吞吐量。是则请求被丢弃，否则请求可以被处理