最近,上线一个应用后。
发现异常:java.net.SocketException: Too many open files
导致tomcat down 掉了。
在linux下,通过lsof -p pid |wc -l 来查看占用句柄的总数
发现占用句柄的数量已经超过1024,已经大于了ulimit -n 的限制。
重启应用后,句柄释放,应用恢复。
但每隔2个小时,通过lsof -p pid |wc -l 查看句柄数量,发现有增无减。
基本确定出现了句柄泄露。
为了给开发留出更多时间,进行排查,我们先修改ulimit -n的值,以保证应用不会在很短时间里面down掉。
打开/etc/security/limits.conf文件
添加如下内容:
* soft nproc 65535
* hard nproc 65535
* soft nofile 65535
* hard nofile 65535
*代表domain,影响到的域,我这里设置了全部。
soft/hard :代表软性或者硬性限制
nproc:max number of processes 设置最大的进程数
nofile:max number of open files 设置最大的文件句柄数
再编辑/etc/profile文件,加入如下内容:
ulimit -HSn 65535
source /etc/profile 使其生效,并重启应用。
ulimit -n可以查看到当前系统能够打开最大的文件句柄数。
通过排查,将代码中未主动关闭的句柄,进行了排查与显示关闭。
重新发布后,再通过lsof -p pid |wc -l 定时查看,发现问题已经解决。
这期间,我们也使用了Visual VM 进行排查,在开发机上安装了ProcessExplorer帮助排查。