前言
记录线上一次故障,状态延迟,状态使用短连接,长轮训的方式获取,在每天的固定时间点,出现状态延迟,持续几分钟,然后又莫名其妙的恢复了,很是怪异,下面就来复盘下,这次问题的定位和思考。
冰山一角
我们可以掌握的线索有
1.固定的时间点,发生。
2.通过监控可以看到,流量并不高,但是TCP TIMEWAIT一瞬间疯涨
3.出问题的时间点,远程客户的电脑(全内网),ping网关和服务器,发现有大量延时
4.有同事通过jstat看,发现gc的次数很多,认为gc导致了接口延时。
5.接口超时的时间点,CPU不高,内存不高,I/O不高,系统负载不高,也就是未达到机器的性能瓶颈。机器配置16核64g
软件版本:
- 操作系统 centos7.9
- JDK 1.6
- nginx7.7
由于,这个问题牵涉的大客户,很多技术人员,投入进来一起攻破,每个人的想法不一致,导致问题更难以统一突破。
一部分人,认为是网络