资源是什么? 又为什么要隔离
我们设想一个这样的场景:
- 在某分布式微服务系统中的某个服务 A ,它依赖外部的 B 、C、D 三个服务,通过 RPC 远程调用它们。
- 假设服务 A 是一个 springboot 启动的 java 进程,内部 wrap 的 web server 是 tomcat。
- 假设 tomcat 采用的线程模型是 NIO 模式,它默认的最大连接数是
10000
,也就是最多同时接收处理10000
个用户请求。
在正常情况下,只要同时请求数不超过10000
且服务 A 及内外部服务都正常运行就没有问题。(理论上虽然是这样,但实际情况可能不太严谨)
考虑这样一种情况:
假设依赖的 B 服务由于各种原因不正常了,比如出现了超时,而且 B 服务是一个业务核心依赖(基本所有请求都要过它)。那么这时候用户从 A 服务入口进来的正常请求线程将不能正常 终止(terminated)
,而会 阻塞(Blocked)
或者 等待 (waiting)
在 B 服务这里。
这时 tomcat 的可用线程数将下降,也就会导致用户对 A 服务的正常请求受到影响,如果 B 服务的情况不能得到改善,那么 A 服务将有可能面临
- 线程资源不足,A 服务的非核心请求也受到影响 (不走 B 服务的)
雪崩
的风险,有可能会因为线程资源不足而 hang 死,产生连锁反应,导致 A 也不可用。
可见,我们并不想产生这样的影响,我们希望无论 B 服务是不是核心依赖,它出了问题,都尽量不要或最小范围影响我本服务。
所以,总结来看,资源具体来说就是线程
,而隔离的目的,是为了在依赖服务出问题的情况下,影响范围最小化。
Hystrix
Hystrix 模型
Hystrix 将远程服务的请求托管在一个线程池中。即默认情况下,所有 Hystrix 命令 (@HystrixCommand) 共享同一个线程池来处理这些请求。该线程池中持有 10 个线程来处理各种远程服务请求,可以是 REST 服务调用、数据库访问等。如下图所示:
如何隔离
有两种策略分别是
- 线程池隔离
- 信号量