一次孤儿socket过多导致负载高的问题排查过程

star_kite

于 2023-10-10 18:49:51 发布

阅读量820

点赞数

分类专栏： Linux相关文章标签：网络服务器运维

Linux相关专栏收录该内容

9 篇文章

订阅专栏

文章讲述了客户使用网关设备后网络频繁中断的问题，通过分析发现是由于设备负载过高，特别是CPU的soft中断导致。深入研究发现孤儿socket过多是主要原因，涉及TCP错误日志和fin超时设置。最终确定解决方案需针对服务端响应延迟或出口网络环境优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、问题现象

客户报障，说使用了我们的网关设备后网络经常中断。具体的情形是用我们设备做代理上网后，流量图显示流量每隔两分钟就会直线下跌一次，同时就伴随着内网用户断网。

经过排查后发现问题原因是设备负载太高了导致，出问题时候的负载趋势图为：

一次孤儿socket过多导致负载高的问题排查过程

从图形来看，负载是每1-2分钟就会上升一次，而且上升得特别明显，最高到达了五十多。但设备只是一个4核的设备，这么高的负载肯定是无法承受了。可以断定断网是负载高导致的。

于是继续分析mpstat中对CPU的采样，看看是什么原因导致的设备负载高：

linux 2.6.30-os (localhost) 02/27/20 _x86_64_ (4 CPU)

Average: CPU %usr %nice %sys %soft %idle

Average: all 17.50 4.75 18.00 29.75 27.75

Average: 0 17.00 5.00 16.00 4.00 57.00

Average: 1 17.17 0.00 18.18 60.61 0.00

Average: 2 16.16 13.13 16.16 1.01 53.54

Average: 3 20.00 0.00 21.00 54.00 1.00

从cpu抽样数据可以看到，出问题的时候，有2个CPU都已经跑满了，其中占用最高的是soft，两个核占用都超过了一半。soft是系统软中断调用，是内核层面的原因导致，需要进一步排查内核中的问题。

内核问题一般回打印到messages或者dmesg，我们的设备是都保存到了一个dmesg文件中，因此下一步思路就是分析dmesg了。果然，查看dmesg就看到了大量的错误信息：

TCP: time wait bucket table overflow

...

Out of socket memory

...

TCP: too many of orphaned sockets

经过查找资料后，整理出来三个错误日志的意思：

TCP: too many of orphaned sockets: 太多的孤儿socket
Out of socket memory: socket占用的内存超出
TCP: time wait bucket table overflow: 保存TIME-WAIT状态socket的哈希表槽溢出

对比错误日志产生的时间和系统负载增加的时间发现两者都能对上，负载高的时候打印日志更频繁，负载低的时候几乎没有什么日志。这就说明导致负载高的原因和这三条日志有关了，下一步思路是分析为什么要打印这些日志了。

二、分析孤儿socket

2.1 什么是孤儿socket

说到孤儿socket的原因是Out of socket memory日志，说实话在遇到这个问题之前我并不知道有孤儿socket的存在，也是在网上查这个日志信息才知道的。产生这个日志的原因有两个：

孤儿socket太多，超出系统阈值，阈值可通过cat /proc/sys/net/ipv4/tcp_max_orphans查看。
TCP缓冲区超出系统阈值，缓冲区的大小可通过cat /proc/sys/net/ipv4/tcp_mem查看。

通过另外两个日志信息基本可以判断是第一种情况了——孤儿socket太多导致的。那么孤儿socket到底是什么呢？

大部分的资料都是这么描述孤儿socket的：孤儿socket是已经没有和文件句柄绑定、但是仍然存在于内核没有被释放的socket。

这个说法相当官方，并且笼统，虽然说的并没有错误。实际用接地气的话来描述的话就是那些已经执行了close()但是状态还没有到达CLOSED状态的socket。

回忆一下TCP四次挥手的过程：

一次孤儿socket过多导致负载高的问题排查过程

客户端执行close()函数来关闭socket，此时会发送FIN包到服务端，客户端socket的状态是FIN-WAIT-1，等到服务端ACK后状态变成FIN-WAIT-2。然后服务端也执行close()，此时socket就变成了TIME-WAIT状态，等到2MSL时间过去后才变成CLOSED。孤儿socket指的是状态在FIN-WAIT-1到TIME-WAIT之间的socket，他们已经准备释放了，但是还没有达到完全释放的条件。

2.2 分析孤儿socket状态

在确定了问题原因是孤儿socket导致的之后，排查的思路就是确定孤儿socket的状态了。

查看系统支持的最大孤儿socket数量：

一次孤儿socket过多导致负载高的问题排查过程

查看当前socket使用状态：

# 方法1

cat /proc/net/sockstat

# 方法2

ss -s

一次孤儿socket过多导致负载高的问题排查过程

可以看到当前环境中孤儿socket有65506个，距离超出系统负载就差一点点了。而closed和timewait状态的socket更是有10w+个之多，这种情况下内核确实承受了它这种配置不该承受的压力。

此时，下一步的排查思路就变成了为什么会有这么多socket无法完全释放了。

三、问题原因分析

当问题定位孤儿socket后，网上所有的教程都是通过放大tcp_max_orphans参数来解决，实际上是否真正能解决问题呢？调大之后会不会导致孤儿socket继续增加，是否会导致系统运行异常，这些都是有待确认的。

因为是线上环境，为了避免调整导致网络环境出现更大的异常，所以没有直接按照教程把值往上调整一倍，而是增加了5%左右。调整完成后，实际上并没有太大的效果，孤儿socket还是一直增加到了上限，dmesg也是一直打印日志，因此可以认为这种方法不可取，再往大调只会导致情况更加恶化。具体的原因还得具体再分析。