记一次线上环境排查错误过程

引言

生产环境不出问题时像只小绵羊一样温顺可爱,左手一杯coffee右手熟练敲击键盘输出日志丝滑平稳,对于一闪而过的warn警告丝毫不慌,心想肯定是哪个下饭同事写了一个下饭的BUG.时间过去两三分钟,突然发现负载的四台服务器日志有两台突然不动了,直觉告诉我这不是个好兆头,果然几秒后就收到了接口超时预警,打开客户端发现请求接口出现概率超时.在确认另外两台没有问题后,我及时从负载均衡中下掉了这两台假死的服务器并替换上两台临时服务器,启动客户端发现一切正常才暂时放下心.屏气凝神准备看看究竟是什么导致发生服务宕机现象.

排查

排错指南

排查路线1

公司买的是阿里云的服务器组,那么排查方向我就先从服务器的监控上去寻找端倪.打开监控发现出问题的那个时间段处于用户活跃时间,系统负载和ECS同时连接数指标明显处于峰值,因此初步判断应该和这两组异常数据有关.

排查路线2

打开ssh工具分别连接这两台服务器.首先输入命令netstat -ntlp |grep java,查询该服务器中所有部署的java服务

[root ~]# netstat -ntlp |grep java
tcp        0      0 0.0.0.0:8088            0.0.0.0:*               LISTEN      11772/java          
tcp        0      0 0.0.0.0:33880           0.0.0.0:*               LISTEN      21705/java          
tcp        0      0 0.0.0.0:8091            0.0.0.0:*               LISTEN      619/java            
tcp   
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值