在复杂的分布式系统中,可能几十个服务相互依赖,这些服务由于某些原因,例如机房的不可靠性、网络服务商的不可靠性等,导致某个服务不可用。如果系统不隔离该不可用的服务,可能会导致整个系统不可用。
例如,对于依赖30个服务的应用程序,每个服务的正常运行时间为99.99%,对于单个服务来说,99.99%的可用是非常完美的。
有99.99的30次方 = 99.7%的可正常运行时间和0.3%的不可用时间,那么10亿次请求中有3百万次失败,实际的情况可能比这更糟糕。
如果不设计整个系统的韧性,即使所有依赖关系表现良好,单个服务只有0.01%的不可用,由于整个系统的服务相互依赖,最终对整个系统的影响是非常大的。
在微服务系统中,一个用户请求可能需要调用几个服务才能完成。例如,在所有的服务都处于可用状态时,一个用户请求需要调用A、B、C、和D服务。
当某一个服务,例如服务C,出现网络延迟或者故障时,即使服务A、B、和D可用,由于服务C的不可用,整个用户请求会处理阻塞状态,并等待服务C的响应。
在高并发的情况下,单个点的请求故障会导致用户的请求处于阻塞状态,最终的结果就是整个服务的线程资源消耗殆尽。由于服务的依赖性,会导致依赖于该故障服务的其他服务也处于线程阻塞状态,最终导致这些服务的线程资源消耗殆尽,直到不可用,从而导致整个服务系统都不可用,即雪崩效应。
为了防止雪崩效应,因而产生了熔断器模型。Hystrix是在业界表现非常好的一个熔断器模型实现的开源组件,它是Spring Cloud组件不可缺少的一部分。