too many open files 的解决办法

1、首先,得定位问题,查,到底是哪些进程或线程打开了大量的连接(scoket)没有关闭

lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more

2、如果Linux是内网环境不支持lsof命令,那就离线安装gcc

3、查看当前进程相关的连接

lsof | grep pid

4、jps查看当前java进程的状态

jps

5、查看当前进程属于哪个应用

ps -ef | grep pid

6、杀掉对应的pid

kill -9 pid

8、总结

由于是生产内网环境遇到的,就不截图了,直接说明最后怎么解决的:

1、tomcat运行一段时间就会输出大量日志: xxxx too many open flle,这个错一报,tocmat所在的linux服务器就什么连接都create不了,结果导致服务瘫痪,前端请求一直pending

2、每次重启服务,临时解决,发现不一会又出现xxxx too many open flle错误

3、索性,将ulimit -n 显示的值 从1024 改成了 2w+,还是不行,运行一段时间又报错

4、什么情况,抓狂中,只能lsof查看一下,到底是哪些进程打开的file(linux一切皆文件)比较多,其实file就是一个tcp连接(socket)

5、结果发现,内网环境linux上没安装lsof,卧槽,那就安装呗,外网下了一个二进制包,准备编译,结果make时提示我需要gcc

6、那就安装gcc呗,外网准备相关依赖包,内网安装,欧克了,lsof可以用了

7、利用lsof -n | awk '{print $2}' | sort | uniq -c | sort -nr | more查看了排在前面的几个进程,利用jps比对了一下,果不其然,指向的就是tomcat,但是额外发现有好多个tomcat进程实例(重复的,可能之前tomcat关闭时,没政正常shutdown),于是用kill命令手动全部干掉了

8、重启tomcat,保证只有一个jps进程,跟了下,程序运行期间,files数一直在增长,于是定位就是这个服务本身的问题,实际上就是代码写的有问题,有资源用完了未释放,造成tcp连接一直挂着,占用着linux的文件句柄资源

9、利用 lsof | grep pid命令,查看了进程的连接情况,结果发现大量的状态为Established的tcp连接,他们清一色的指向mongodb

10、那么问题就好办了,先在mongodb中查询当前连接的数:db.serverStatus().connections;发现current的值在持续++,肯定就不对劲了

11、debug项目代码,定位问题在一些数据入库的时候异常了,结果定时器频繁重执行,而入库分两步,一个是入mongodb,一个入postgresql,前者入的时候,代码中忘关client连接了

12、将11步定位的问题代码处,加了连接close()的方法

13、再重新打包服务,发布,观察,问题不在出现!!!!解决



作者:appleyk
链接:https://www.jianshu.com/p/82f1943a0960
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值