因资源用尽导致服务宕机

最新推荐文章于 2024-04-14 20:58:48 发布

weixin_33734785

最新推荐文章于 2024-04-14 20:58:48 发布

阅读量200

点赞数

文章标签： java python

原文链接：https://my.oschina.net/northerSong/blog/3004956

版权

2019独角兽企业重金招聘Python工程师标准>>>

1. 事故的发生

服务调用场景和发生的事件如下图所示，红色表示服务不可用. 第一个事件第二个事件

服务A和服务B都是内部服务，服务C_*为不同运营商提供的服务，遵循一样的协议。
某一天，突然发现所有服务A调用服务B的请求都被熔断了。去服务器上看下，发现服务B依然运行。日志不再打印，最近的日志都是调用服务C_3请求超时。尝试了下重启，2，3分钟后服务又处于不可用状态。

1.1 查找原因

第一时间想到了发生了死锁，立刻使用jstack查看一下，（忘记截图保存资料了）。
发现是RestTemplate里有线程处于wait状态，联想到爆出的服务C_3服务处于宕机状态,立刻想到了httpClient里配置的最大连接被占满，而且没有配置当连接数占满后的等待超时时间，导致其他请求处于一直等待状态！而正在使用的连接，因为请求服务C_3超时（当时配置了超时时间10s）....
当然故障的主要原因不仅于此，还有重试机制！当请求失败后，会间隔5s后重试，所以服务B的不可用状态不仅是因为新的请求而阻塞，主要原因是大量的重试。