hystrix、ribbon多次触发问题解决方案（ribbon重试巨坑）

fitz_i

已于 2022-07-27 11:06:10 修改

阅读量1.2k

点赞数 1

文章标签： spring java

于 2021-09-03 15:05:58 首次发布

本文链接：https://blog.csdn.net/fitz_i/article/details/120081481

版权

场景：

在结算及日终的任务类，为时间较长，计算量较大的一些任务中存在的问题，定时任务调用后出现两次、或多次执行。

从而导致数据库重复添加数据，或触发唯一键报错。

起初查阅资料，以为是设计任务的类交于spring托管后，配置文件配置不当，出现多个实例。

后查看实例排除此问题。若用早起spring框架可能会存在，但如今的配置早已脱离xml类的独立配置文件。

而后怀疑quartz的失败重试时间导致，通过多次代码调试。问题依然存在，固此选项排除。

最后联想到微服务间相互调用的服务容错问题。

一、问题排查

服务大致结构为：JobService --> 通过@FeignClient -->调用目标服务

quartz --> feign + hystrix + ribbon --> 目标服务

当任务超过ribbon响应时间时，判定调用失效，触发ribbon重试机制，会重复去执行目标服务指令。

二、 Feign设置超时时间

使用Feign调用接口分两层，ribbon的调用和hystrix的调用，所以ribbon的超时时间和Hystrix的超时时间的结合就是Feign的超时时间。

hystrix:
  shareSecurityContext: true
  command:
    default:
      execution:
        isolation:
          thread:
            timeoutInMilliseconds: 18000
ribbon:
  ReadTimeout: 6000
  ConnectTimeout: 3000
  MaxAutoRetries: 1 
  MaxAutoRetriesNextServer: 1

一般情况下都是 ribbon 的超时时间（<）hystrix的超时时间（因为涉及到ribbon的重试机制）
因为ribbon的重试机制和Feign的重试机制有冲突，所以源码中默认关闭Feign的重试机制。

三、ribbon的重试机制

ribbon:
  ReadTimeout: 6000
  ConnectTimeout: 3000
  MaxAutoRetries: 1 #同一台实例最大重试次数,不包括首次调用
  MaxAutoRetriesNextServer: 1 #重试负载均衡其他的实例最大重试次数,不包括首次调用
  OkToRetryOnAllOperations: false  #是否所有操作都重试

根据上面的参数计算重试的次数：MaxAutoRetries+MaxAutoRetriesNextServer+(MaxAutoRetries *MaxAutoRetriesNextServer) 即重试3次则一共产生4次调用
如果在重试期间，时间超过了hystrix的超时时间，便会立即执行熔断，fallback。所以要根据上面配置的参数计算hystrix的超时时间，使得在重试期间不能达到hystrix的超时时间，不然重试机制就会没有意义
hystrix超时时间的计算： (1 + MaxAutoRetries + MaxAutoRetriesNextServer) * ReadTimeout 即按照以上的配置 hystrix的超时时间应该配置为（1+1+1）*3=18秒

当ribbon超时后且hystrix没有超时，便会采取重试机制。当OkToRetryOnAllOperations设置为false时，只会对get请求进行重试。如果设置为true，便会对所有的请求进行重试，如果是put或post等写操作，如果服务器接口没做幂等性，会产生不好的结果，所以OkToRetryOnAllOperations慎用（建议false或默认）。

如果不配置ribbon的重试次数，默认会重试一次

#同一实例最大重试次数，不包括首次调用。默认值为0
ribbon.MaxAutoRetries = 0
#同一个服务其他实例的最大重试次数，不包括第一次调用的实例。默认值为1
ribbon.MaxAutoRetriesNextServer = 1
#是否所有操作都允许重试。默认值为false
ribbon.OkToRetryOnAllOperations = false

注意：
默认情况下,GET方式请求无论是连接异常还是读取异常,都会进行重试
非GET方式请求,只有连接异常时,才会进行重试

fitz_i

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
hystrix、ribbon多次触发问题解决方案（ribbon重试巨坑）

场景：在结算及日终的任务类，为时间较长，计算量较大的一些任务中存在的问题，定时任务调用后出现两次、或多次执行。从而导致数据库重复添加数据，或触发唯一键报错。起初查阅资料，以为是设计任务的类交于spring托管后，配置文件配置不当，出现多个实例。后查看实例排除此问题。若用早起spring框架可能会存在，但如今的配置早已脱离xml类的独立配置文件。而后怀疑quartz的失败重试时间导致，通过多次代码调试。问题依然存在，固此选项排除。最......
复制链接

扫一扫