记一次线上环境排查错误过程

头顶假发

已于 2022-09-14 10:46:46 修改

阅读量514

点赞数

分类专栏：程序员 Java 编程文章标签：服务器运维

于 2022-09-14 10:45:53 首次发布

本文链接：https://blog.csdn.net/lt_xiaodou/article/details/126848169

版权

引言

生产环境不出问题时像只小绵羊一样温顺可爱,左手一杯coffee右手熟练敲击键盘输出日志丝滑平稳,对于一闪而过的warn警告丝毫不慌,心想肯定是哪个下饭同事写了一个下饭的BUG.时间过去两三分钟,突然发现负载的四台服务器日志有两台突然不动了,直觉告诉我这不是个好兆头,果然几秒后就收到了接口超时预警,打开客户端发现请求接口出现概率超时.在确认另外两台没有问题后,我及时从负载均衡中下掉了这两台假死的服务器并替换上两台临时服务器,启动客户端发现一切正常才暂时放下心.屏气凝神准备看看究竟是什么导致发生服务宕机现象.

排查

排错指南

排查路线1

公司买的是阿里云的服务器组,那么排查方向我就先从服务器的监控上去寻找端倪.打开监控发现出问题的那个时间段处于用户活跃时间,系统负载和ECS同时连接数指标明显处于峰值,因此初步判断应该和这两组异常数据有关.

排查路线2

打开ssh工具分别连接这两台服务器.首先输入命令netstat -ntlp |grep java,查询该服务器中所有部署的java服务

[root ~]# netstat -ntlp |grep java
tcp        0      0 0.0.0.0:8088            0.0.0.0:*               LISTEN      11772/java          
tcp        0      0 0.0.0.0:33880           0.0.0.0:*               LISTEN      21705/java          
tcp        0      0 0.0.0.0:8091            0.0.0.0:*               LISTEN      619/java            
tcp

最低0.47元/天解锁文章

头顶假发

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记一次线上环境排查错误过程

在一些耗时的多步操作中,我们可以使用多线程进行分线处理,执行效率会得到优化,但是需要注意的是线程的创建和释放问题,要多考虑意外情况,不要让程序线程死锁,等待的问题.1.8jdk也开放了CompletableFuture工具类,也可实现这种异步然后归并的操作,处理比计数器的方式更加友好.生产环境上的BUG排查是一个耐心的过程,我们要通过一点点的线索去解锁这个问题的根源,所以出现生产环境问题,最好是有备选服务器支撑服务,然后再通过监控,日志等手段去排查.
复制链接

扫一扫

专栏目录