一、什么是雪崩效应?
在分布式系统架构中,多个系统之间通常是通过远程 RPC 调用进行通信,也就是 A 系统调用 B 系统服务,B 系统调用 C 系统服务等(实现方式有 Spring Boot + Dubbo 实现微服务调用,以及各个公司自研的一些 RPC 框架等)。当下游应用 C 发生故障,而系统 B 没有服务降级的时候就可能会导致 B,甚至系统 A 瘫痪,这种现象被称为雪崩效应。
二、雪崩效应常见场景?
- 硬件故障:如服务器宕机,机房断电,光纤被挖断等。
- 流量激增:如异常流量,重试加大流量等。
- 缓存穿透:一般发生在应用重启,所有缓存失效时,以及短时间内大量缓存失效时。大量的缓存不命中,使请求直击后端服务,造成服务提供者超负荷运行,引起服务不可用。
- 程序BUG:如程序逻辑导致内存泄漏,JVM 长时间 FullGC 等。
- 同步等待:服务间采用同步调用模式,同步等待造成的资源耗尽。
三、 雪崩效应常见解决方案
针对上述雪崩场景,有很多应对方案,但没有一个万能的模式能够应对所有场景。针对不同场景分别有不同的解决方案,如下所示。
- 硬件故障:多机房容灾,跨机房路由,异地多活等。
- 流量激增:采用自动扩缩容以应对突发流量,或在负载均衡器上安装限流模块。
- 缓存穿透:缓存预加载、缓存异步加载等。
- 程序BUG:修改程序bug、及时释放资源等。
- 同步等待:资源隔离、MQ解耦、不可用服务调用快速失败等。资源隔离通常指不同服务调用采用不同的线程池;不可用服务调用快速失败一般通过超时机制,熔断器以及熔断后降级方法等方案实现。
流量控制 的具体措施包括:
- 网关限流
- 用户交互限流(采用加载动画,提高用户的忍耐等待时间;提交按钮添加强制等待时间机制。)
- 关闭重试
服务调用者 降级服务 的措施包括:
- 资源隔离(主要是对调用服务的线程池进行隔离)
- 对依赖服务进行分类
- 不可用服务的调用快速失败
【本篇文章在创作时参考了如下链接】