场景:
在结算及日终的任务类,为时间较长,计算量较大的一些任务中存在的问题,定时任务调用后出现两次、或多次执行。
从而导致数据库重复添加数据,或触发唯一键报错。
起初查阅资料,以为是设计任务的类交于spring托管后,配置文件配置不当,出现多个实例。
后查看实例排除此问题。若用早起spring框架可能会存在,但如今的配置早已脱离xml类的独立配置文件。
而后怀疑quartz的失败重试时间导致,通过多次代码调试。问题依然存在,固此选项排除。
最后联想到微服务间相互调用的服务容错问题。
一、 问题排查
服务大致结构为:JobService --> 通过@FeignClient -->调用目标服务
quartz --> feign + hystrix + ribbon --> 目标服务
当任务超过ribbon响应时间时,判定调用失效,触发ribbon重试机制,会重复去执行目标服务指令。
二、 Feign设置超时时间
使用Feign调用接口分两层,ribbon的调用和hystrix的调用,所以ribbon的超时时间和Hystrix的超时时间的结合就是Feign的超时时间。
hystrix:
shareSecurityContext: true
command:
default:
execution:
isolation:
thread:
timeoutInMilliseconds: 18000
ribbon:
ReadTimeout: 6000
ConnectTimeout: 3000
MaxAutoRetries: 1
MaxAutoRetriesNextServer: 1
一般情况下 都是 ribbon 的超时时间(<)hystrix的超时时间(因为涉及到ribbon的重试机制)
因为ribbon的重试机制和Feign的重试机制有冲突,所以源码中默认关闭Feign的重试机制。
三、ribbon的重试机制
ribbon:
ReadTimeout: 6000
ConnectTimeout: 3000
MaxAutoRetries: 1 #同一台实例最大重试次数,不包括首次调用
MaxAutoRetriesNextServer: 1 #重试负载均衡其他的实例最大重试次数,不包括首次调用
OkToRetryOnAllOperations: false #是否所有操作都重试
根据上面的参数计算重试的次数:MaxAutoRetries+MaxAutoRetriesNextServer+(MaxAutoRetries *MaxAutoRetriesNextServer) 即重试3次 则一共产生4次调用
如果在重试期间,时间超过了hystrix的超时时间,便会立即执行熔断,fallback。所以要根据上面配置的参数计算hystrix的超时时间,使得在重试期间不能达到hystrix的超时时间,不然重试机制就会没有意义
hystrix超时时间的计算: (1 + MaxAutoRetries + MaxAutoRetriesNextServer) * ReadTimeout 即按照以上的配置 hystrix的超时时间应该配置为 (1+1+1)*3=18秒
当ribbon超时后且hystrix没有超时,便会采取重试机制。当OkToRetryOnAllOperations设置为false时,只会对get请求进行重试。如果设置为true,便会对所有的请求进行重试,如果是put或post等写操作,如果服务器接口没做幂等性,会产生不好的结果,所以OkToRetryOnAllOperations慎用(建议false或默认)。
如果不配置ribbon的重试次数,默认会重试一次
#同一实例最大重试次数,不包括首次调用。默认值为0
ribbon.MaxAutoRetries = 0
#同一个服务其他实例的最大重试次数,不包括第一次调用的实例。默认值为1
ribbon.MaxAutoRetriesNextServer = 1
#是否所有操作都允许重试。默认值为false
ribbon.OkToRetryOnAllOperations = false
注意:
默认情况下,GET方式请求无论是连接异常还是读取异常,都会进行重试
非GET方式请求,只有连接异常时,才会进行重试