近期在压力测试过程中,频繁发生【无可用服务】的错误。这个是loadbalance在找不到可用服务时的错误。但是,注册中心监控并没有发现原有的服务突然丢失。通过日志分析,发现大部分情况下该错误的持续时间都是30秒;而且发生该错误前,会出现feign的read timeout错误。
于是开始怀疑feign的read timeout导致了lb的无可用服务。经过源码分析,发现还真的有这样的功能。
主要的类:
-
LoadBalancerStats
负责管理LB的状态,实际上会给每个server创建一个ServerStats -
ServerStats
会记录请求数量,错误请求数量,服务禁用时间等信息
niws.loadbalance.servername.circuitTripMaxTimeoutSeconds 最大熔断秒数
niws.loadbalance.servername.circuitTripTimeoutFactorSeconds 熔断递增秒数
niws.loadbalance.servername.connectionFailureCountThreshold 熔断的错误阈值
计算方式为:熔断时间=(错误次数-错误阈值)x熔断递增秒数,默认最大30秒 -
BestAvailableRule
判断ServerStats的信息,自动剔除因为请求错误而被禁用的服务