记一次线上文件数打开过多的问题（一）

最新推荐文章于 2024-08-02 16:22:25 发布

伦无次语

最新推荐文章于 2024-08-02 16:22:25 发布

阅读量929

点赞数

分类专栏：服务器文章标签：运维

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lunwuciyu/article/details/83053519

版权

服务器专栏收录该内容

3 篇文章 0 订阅

订阅专栏

问题

线上服务忽然宕机，导致应用全部异常退出拒绝服务，运维同学反馈线上app无法登录了。

查找原因

直觉告诉我，又是数据库挂了（之前有过先例），已经做好了最坏的打算，准备去kill process了，打开阿里云后台，结果发现数据库一切正常。

然后去看应用服务的监控，结果发现没有任何监控数据，开始以为是monitor也一起挂掉了，后来才知道是因为应用挂掉，导致数据无法采集才产生了CPU、内存等数据全部为0的现象。

那么本着优先恢复线上故障的逻辑，先弹出2台机器应付线上流量，保留故障现场，开始分析问题，但是故障机器已经没有任何监控数据输出了，只能登录进服务器查看数据，top命令发现CPU，内存一切正常（后来才知道buffer/cache占用过大也会造成异常），磁盘也是正常的。那会不会是恶意攻击呢，造成了网络堵塞（虽然可能性也不是很大），但还是尝试看了下SLB的流量，发现宕机前果然是有流程峰值的，但这个也好像说明不了什么，毕竟服务器宕机也是会造成流量堆积的现象的。然后去看mongo或redis的网络情况，也没有发现任何异常，这个问题就很诡异了。

后台查看新弹出的机器，发现一个异常的地方， java进程打开的文件数（lsof的结果），持续在增长，当达到1000+后，服务器就开始崩溃了。但是很奇怪，近期上线的代码里没有操作文件的地方（开始不知道网络句柄也算文件数），查看lsof（list open files）命令，发现里面有很多“sock”，猜想这个应该是哪个地方的连接溢出了，首先想到的是redis是否有问题，查看redis的连接数，发现并没有很大。

分析代码

最后没办法，就看发生问题之前都上线过哪些代码，一个版本一个版本的看，发现出问题那天上线的版本一共合并了4个功能，然后对每个版本分别部署测试环境，查看文件数的变化。

一共发现了3个地方的改动

分布式锁
异步定时任务
异步写日志

采用控制变量法，这些改动一个一个还原回去查看效果，具体执行结果的原因分析见下文。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
记一次线上文件数打开过多的问题（一）

问题线上服务忽然宕机，导致应用全部异常退出拒绝服务，运维同学反馈线上app无法登录了。查找原因直觉告诉我，又是数据库挂了（之前有过先例），已经做好了最坏的打算，准备去kill process了，打开阿里云后台，结果发现数据库一切正常。然后去看应用服务的监控，结果发现没有任何监控数据，开始以为是monitor也一起挂掉了，后来才知道是因为应用挂掉，导致数据无法采集才产生了CPU、内存等数据全...
复制链接

扫一扫

专栏目录

伦无次语 CSDN认证博客专家 CSDN认证企业博客

码龄13年

9: 原创

43万+: 周排名

176万+: 总排名

4万+: 访问

: 等级

292: 积分

5: 粉丝

6: 获赞

2: 评论

33: 收藏

私信

关注

热门文章

分类专栏

jquery 1篇
http 1篇
java 6篇
spring 1篇
JavaScript
servlet 1篇
ajax
wcf
前端
redis 1篇
服务器 3篇

最新评论

基于redis的zset实现排行榜功能
Blue_Zwj: “分数相同时，时间优先”这个条件应该没有满足
基于redis的zset实现排行榜功能
micro_hz: 关于获得排名，为什么 “2：查询分数相同，时间小于自己的记录数”可以呢，我认为是查询大于自己的分数并且时间小于当前时间的不应该才能获得自己排多少名么，如果是获取排名百分比，还要count查询一次获取全部的记录数

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。