引言
生产环境不出问题时像只小绵羊一样温顺可爱,左手一杯coffee右手熟练敲击键盘输出日志丝滑平稳,对于一闪而过的warn警告丝毫不慌,心想肯定是哪个下饭同事写了一个下饭的BUG.时间过去两三分钟,突然发现负载的四台服务器日志有两台突然不动了,直觉告诉我这不是个好兆头,果然几秒后就收到了接口超时预警,打开客户端发现请求接口出现概率超时.在确认另外两台没有问题后,我及时从负载均衡中下掉了这两台假死的服务器并替换上两台临时服务器,启动客户端发现一切正常才暂时放下心.屏气凝神准备看看究竟是什么导致发生服务宕机现象.
排查
排错指南
排查路线1
公司买的是阿里云的服务器组,那么排查方向我就先从服务器的监控上去寻找端倪.打开监控发现出问题的那个时间段处于用户活跃时间,系统负载和ECS同时连接数指标明显处于峰值,因此初步判断应该和这两组异常数据有关.
排查路线2
打开ssh工具分别连接这两台服务器.首先输入命令netstat -ntlp |grep java,查询该服务器中所有部署的java服务
[root ~]# netstat -ntlp |grep java
tcp 0 0 0.0.0.0:8088 0.0.0.0:* LISTEN 11772/java
tcp 0 0 0.0.0.0:33880 0.0.0.0:* LISTEN 21705/java
tcp 0 0 0.0.0.0:8091 0.0.0.0:* LISTEN 619/java
tcp