环境
- springboot 2.0.7.RELEASE
- springcloud Finchley.SR2
问题
多个服务服务副本在 需要升级的情况,直接kill停止 java程序
发现即使配置 ribbon 的重试,依然出现异常
feign.RetryableException: Connection refused (Connection refused) executing
导致服务调用失败。
这个问题是因为 ribbon 的负载均衡是采用客户端负载均衡,当我们kill -9
杀掉服务时候。
此时ribbon 的服务负载均衡清单没有更新,ribbon 误以为这个服务还处于可用状态,因此将请求发送到了停止的服务上,导致了该错误。
解决方案
通过设置 eureka client 状态是服务在 注册中心下线,然后等待 其他服务的ribbon客户端刷新了服务列表后,下线的服务将不再有机会被调用到,这个时候停止服务就是安全的。
1.引入依赖spring-boot-actuator
,默认情况这个依赖已经包含在springboot中
<dependency>
<groupId>org.springframework.boot</groupId>
<artifactId>spring-boot-actuator</artifactId>
</dependency>
2.配置 application.yml
文件,开放/actuator
的相关端点
management:
endpoints:
web:
exposure:
include: "*"
上面配置开放了所有端点,如果有安全考虑可以只开放部分,例如:
/actuator/*
3.向需要关闭的服务的端口发送请求,设置服务状态为DOWN
。
curl
curl -i -H "Content-Type: application/json" \
-X POST -d '{"status":"DOWN"}' \
http://localhost:8080/actuator/service-registry
postman
4.我们可以通过注册中心看到,状态 http://localhost:8761
这个注册中心就能够感知到这个服务下线了,把状态设置为DOWN
, 其他服务在在拉取的新的服务清单之后 ,就会跳过DOWN
的服务,被设置的服务就不会再收到流量。
5.在等待一段时间后我们,就可以停止该服务,至于等待多长时间这个,可以通过判断 被设置为DOWN的服务在一段时间内是否有流量实现,或者你可以计算ribbon的更新的时间窗口,这个太麻烦了就不介绍了。
6.重新启动服务,启动后服务状态并不会自动切换到UP
,我们需要手动设置,方式和之前一样
curl
curl -i -H "Content-Type: application/json" -X POST -d '{"status":"UP"}' http://localhost:8080/actuator/service-registry
postman
通过这种方式的重启就可以平滑的升级,不会导致出现服务中断的问题。
ribbon 刷新策略设置
ribbon:
eager-load:
enabled: true
MaxAutoRetries: 1
MaxAutoRetriesNextServer: 2
OkToRetryOnAllOperations: false
ServerListRefreshInterval: 1000
ReadTimeout: 30000
通过上述配置,可以大约计算ribbon刷新的时间窗口。
注意 ribbon 的重试需要引入额外的依赖来激活。
<dependency>
<groupId>org.springframework.retry</groupId>
<artifactId>spring-retry</artifactId>
</dependency>
更多配置参考 ribbon wiki
参考文献
[1] segmentfault . codecraft . 聊聊springcloud的serviceRegistryEndpoint . https://segmentfault.com/a/1190000014661492
[2] csdn . cloud_yf . Spring Boot Actuator的/pause端点使用 . https://blog.csdn.net/u010629610/article/details/88045980
[3] 周立 . Spring Cloud中,如何优雅下线微服务? . http://www.itmuch.com/spring-cloud-sum/how-to-unregister-service-in-eureka/