记录一次文件句柄溢出的排查过程。
问题现象
部署服务器的虚拟机,文件句柄数每天都会增加,最终文件句柄数耗尽,服务无法正常工作。
排查过程
1. lsof 查看文件占用的文件句柄数
由于文件句柄数的增加,只在应用启动后开始,可以定位问题是由于应用引起。
通过【lsof -p 进程号】命令,查看进程的文件句柄占用。
发现大量的文件句柄为:
java 116023 root 7485u sock 0,7 0t0 282463093 protocol:TCPv6
这意味着文件句柄占用来自于套接字,即连接请求。
初步找出文件句柄的占用来自与请求连接。
2.查看网络连接与关闭详情
strace -t -T -f -p 进程号 -e trace=network,close -o strace.out
通过上述指令对应用的网络请求
-t :显示时间
-T : 显示调用的耗时
-f : 跟踪由fork调用所产生的子进程
-p : 指定跟踪的进程号
trace=network,close :跟踪与网络有关的所有系统调用和close系统调用
7360 11:06:47 accept(682, {
sa_family=AF_INET6, sin6_port=htons(59787), inet_pton(AF_INET6, "::ffff:172.20.4.1", &sin6_addr), sin6_flowinfo=0, sin6_scope_id=0}, [28]) = 19703 <0.000060>
7360 11:06:47 getsockname(19703, {
sa_family=AF_INET6, sin6_port=