记一次TIME_WAIT导致连接数报警

背景

公司监控报警,提示线上服务器的TCP连接数超过警告阈值。报警的几个机器原先的业务量请求量并不大,所以预设的报警阈值并不高只有6000,突然报警有点措手不及,于是先登录服务器把当前的所有连接情况打印下来统计分析。

在这里插入图片描述

[webapp@hd2-cil-rs-app-02 ~]$ netstat -natp > tmp
[webapp@hd2-cil-rs-app-02 ~]$ wc -l tmp
5410 tmp

原因分析

TCP连接数量暴涨,初步怀疑如下:

  1. 某应用的数据库连接泄漏,使用后数据库连接未释放;
  2. 业务场景发生变化,前端用户暴涨,导致请求量暴涨;

如上使用netstat命令将所有连接状态打印下来后,当成CSV格式导入Excel,借助Excel的统计能力来查看连接状态。

在这里插入图片描述

对所有的TCP连接的远程ip端口号进行统计后,得出下图饼状图,无论是Redis、Mysql还是MongoDB的连接,连接数量都很正常,未出现数据库连接泄漏的情况,占用比例最高的就是饼状图中银色部分,为内部几个应用之间的http调用,合计569个http连接,占总比的11%。

在这里插入图片描述

再对所有TCP连接的本地ip端口号进行统计后,得出下面的饼状图,占比最高的蓝色部分为nginx代理到某个应用的http连接数量,一共有1727个http连接,占总比的32%。

在这里插入图片描述

通过这两个饼状图,再结合系统监控的QPS统计图,可以分析出是由于QPS请求上升导致的连接数量暴涨触发了监控报警。

连接状态分析

在上一步分析连接占比时,发现有大量的连接状态处于TIME_WAIT,于是再针对连接状态进行统计,得出下面的饼状图,共计5400个连接,有4451连接处于TIME_WAIT状态。

在这里插入图片描述

在这里插入图片描述

进一步分析,筛选出从nginx代理到后端应用的连接,得出下面的饼状图,2808个代理连接中有2803个处于TIME_WAIT状态。

在这里插入图片描述

综上所得,虽然报警TCP连接过多,但实际上处于使用中的连接数量占少数,绝大多数连接都处于TIME_WAIT状态。

TIME_WAIT

在这里插入图片描述

TCP数据包可能由于路由器异常而迷路,在迷路期间,数据包发送方可能因超时而重发这个包,迷路的数据包在路由器恢复后也会被送到目的地,这个迷路的数据包就称为Lost Duplicate。在关闭一个TCP连接后,如果马上使用相同的IP地址和端口建立新的TCP连接,那么有可能出现前一个连接的迷路重复数据包在前一个连接关闭后再次出现,影响新建立的连接。为了避免这一情况,TCP协议不允许使用处于TIME_WAIT状态的连接的IP和端口启动一个新连接,只有经过2MSL的时间,确保上一次连接中所有的迷路重复数据包都已消失在网络中,才能安全地建立新连接。

TIME_WAIT状态是TCP连接的主动关闭方会有的状态,在发出最后一个ACK包之后,主动关闭方进入TIME_WAIT状态,为了防止在端口被复用时收到了迷途包导致数据错误的情况。

对于TIME_WAIT状态,下面3个参数可以影响:

  • net.ipv4.tcp_tw_reuse:表示开启重用。允许将TIME_WAIT 状态的连接重新用于新的TCP连接,默认为0,表示关闭;
  • net.ipv4.tcp_tw_recycle:表示开启TCP连接中TIME_WAIT状态的连接的快速回收,默认为0,表示关闭;
  • net.ipv4.tcp_fin_timeout:对于本端断开的连接,TCP保持在FIN_WAIT_2状态的时间。对方可能会断开连接或一直不结束连接或不可预料的进程死亡,默认值为 60 秒;
[root@VM_0_10_centos ~]# cat /proc/sys/net/ipv4/tcp_tw_reuse 
0
[root@VM_0_10_centos ~]# cat /proc/sys/net/ipv4/tcp_tw_recycle 
0
[root@VM_0_10_centos ~]# cat /proc/sys/net/ipv4/tcp_fin_timeout 
60

实际上,上述3个参数中,net.ipv4.tcp_tw_reuse触发条件比较苛刻,需要远程IP和端口号都相同的情况下,才能将该TIME_WAIT状态的连接重新使用,因此即使启用了该功能,实际效果也不佳;而net.ipv4.tcp_fin_timeout则是个只读参数,修改了也没有任何效果;唯一有显著效果的参数只有net.ipv4.tcp_tw_recycle,但该功能风险较高,可能会导致大量TCP连接错误。

测试参数效果

发起一次请求后,通过netstat查看连接状态,发现刚刚的请求连接均处于TIME_WAIT状态,并且显示还需要58秒的时间才能回收该连接。

[root@VM_0_10_centos ~]# netstat -nato | grep 4000
tcp6       0      0 :::4000                 :::*                    LISTEN      off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:37148         TIME_WAIT   timewait (58.64/0/0)

编辑文件/etc/sysctl.conf,添加或修改以下参数:

net.ipv4.tcp_tw_reuse = 1
net.ipv4.tcp_tw_recycle = 1

然后执行命令使sysctl.conf的参数生效:

[root@VM_0_10_centos ~]# /sbin/sysctl -p
[root@VM_0_10_centos ~]# cat /proc/sys/net/ipv4/tcp_tw_reuse 
1
[root@VM_0_10_centos ~]# cat /proc/sys/net/ipv4/tcp_tw_recycle 
1

这时候再发起一次请求后,通过netstat查看连接状态,发现刚刚的请求连接均处于TIME_WAIT状态,而回收时长只有不到1秒的时间,即TIME_WAIT状态的连接被立即回收释放了。

[root@VM_0_10_centos ~]# netstat -nato | grep 4000
tcp6       0      0 :::4000                 :::*                    LISTEN      off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36838         TIME_WAIT   timewait (0.32/0/0)

建议方案

对于生产环境,并不建议通过修改net.ipv4.tcp_tw_recycle来快速回收TIME_WAIT连接,而是通过下面两种方案来减少TCP连接的创建和回收:

  1. nginx反向代理启用http连接池
  2. 应用内部调用启动http连接池
  3. 集群扩容增加负载节点
nginx启用http连接池

上述分析中,有2800个连接为nginx代理的http连接,且几乎都处于TIME_WAIT状态,如果启用nginx的http连接池,则可以直接避免这2800个连接,总连接数量瞬间减少一半。

upstream http_backend_4000 {
    server 127.0.0.1:4000;
}

server {
    listen       443 ssl;
    ...

    location / {
        proxy_pass http://http_backend_4000;
        ...
    }
}

针对上诉场景的,我们需要使用nginx upstream keepalive来优化,配置如下:

upstream http_backend_4000 {
    server 127.0.0.1:4000;
    keepalive 256;
}

server {
    listen       443 ssl;
    ...

    location / {
        proxy_pass http://http_backend_4000;
        proxy_http_version 1.1;
        proxy_set_header Connection "";
    }
}

通过ab创建1000个线程请求10次,对nginx启用http连接池前后进行压测。

ab -n 1000 -c 10 'https://127.0.0.1:443/'

未启用http连接池时,压测后nginx创建了1000个TCP连接,并且压测结束后,这1000个连接全部处于了TIME_WAIT状态等待60秒回收。

[root@VM_0_10_centos nginx]# netstat -nato | grep '127.0.0.1:4000' > tmp
[root@VM_0_10_centos nginx]# wc -l tmp
1000 tmp
tcp6       0      0 127.0.0.1:4000          127.0.0.1:56758         TIME_WAIT   timewait (45.98/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:54602         TIME_WAIT   timewait (17.37/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:57534         TIME_WAIT   timewait (56.40/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:54692         TIME_WAIT   timewait (18.48/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:57418         TIME_WAIT   timewait (54.99/0/0)

而启用了http连接池时,压测后nginx仅仅创建了10个tcp连接,并且压测结束后,这10个连接依然处于使用中,等待下次请求重复使用。

[root@VM_0_10_centos nginx]# netstat -nato | grep '127.0.0.1:4000' > tmp2
[root@VM_0_10_centos nginx]# wc -l tmp2
10 tmp2
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36488         ESTABLISHED off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36492         ESTABLISHED off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36496         ESTABLISHED off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36482         ESTABLISHED off (0.00/0/0)
tcp6       0      0 127.0.0.1:4000          127.0.0.1:36484         ESTABLISHED off (0.00/0/0)
应用启用http连接池

springboot(28)HTTP连接池

  • 3
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果大量的 Time_wait 状态导致连接异常,有几种方法可以尝试解决问题。 1. 减少 TIME_WAIT 超时时间:TIME_WAIT 状态是为了保证数据传输的完整性,因此在服务器端可以通过调整系统参数来减少 TIME_WAIT 超时时间。 2. 使用负载均衡转发连接:如果服务器端的连接数过多,可以使用负载均衡转发连接,将连接分摊到多台服务器上。 3. 使用 TCP 快速回收:TCP 快速回收是一种优化网络性能的方法,可以在系统内核中设置,可以减少 TIME_WAIT 状态的存在时间。 4. 使用网络优化软件:如果想要快速解决问题,可以使用专业的网络优化软件,例如 TCP Optimizer 等。这些软件可以通过调整系统参数和优化网络连接,帮助您快速解决问题。 5. 使用 TCP Keepalive:TCP Keepalive 可以在服务器端和客户端之间建立持久连接,避免连接断开后导致TIME_WAIT 状态。 6. 使用传输层网关:传输层网关可以代替服务器端和客户端之间的直接连接,可以控 ### 回答2: 在处理大量的Time_wait导致连接异常的问题时,可以采取以下方法: 1. 调整操作系统参数:根据具体情况调整操作系统的参数,增加可用的端口范围和同时处于time_wait状态的连接数量。可以通过修改sysctl.conf文件(Linux环境)或者Registry(Windows环境)来进行相应配置。 2. 减少连接的time_wait时间:可以通过修改操作系统或应用程序的配置,减少连接进入time_wait状态的时间,使得端口更快地释放,从而供新的连接使用。 3. 优化应用程序代码:对于使用大量短连接的应用程序,可以优化代码逻辑,尽量减少连接的创建和终止次数,使用长连接代替短连接,从而避免产生太多的time_wait连接。 4. 使用连接复用:对于频繁连接同一目标IP和端口的情况,可以考虑使用连接复用技术,如HTTP/1.1的keep-alive或者TCP的连接池,将多次请求共享一个连接,减少连接的创建和关闭次数。 5. 加大服务器资源:如果以上方法无法解决问题,可以考虑增加服务器的硬件资源,如扩大CPU、内存或者使用更高性能的网络设备,以提升服务器的处理能力和并发连接处理能力。 综上所述,处理大量的Time_wait导致连接异常需要结合操作系统参数调整、优化应用程序代码、使用连接复用等多种方法来解决,具体应根据具体情况灵活选择。同时,定期进行服务器性能监控和调优也是保障连接正常运行的重要手段。 ### 回答3: 处理大量的Time_wait导致连接异常,可以采取以下几个措施: 1. 调整操作系统的TCP参数:可以通过调整操作系统的TCP参数,来减少Time_wait的数量。例如,可以增加TIME_WAIT的最大数量限制,或者缩短TIME_WAIT的超时时间。 2. 调整应用程序的连接参数:可以在应用程序中设置连接参数,来减少连接的Time_wait状态。例如,可以设置TCP连接的SO_REUSEADDR选项,以允许在同一端口上快速重新建立连接。 3. 优化应用程序的连接管理:可以优化应用程序的连接管理,以更好地复用连接资源。比如,可以使用连接池来管理数据库连接,或者使用长连接来减少连接的建立和关闭次数。 4. 分布式部署和负载均衡:可以通过将应用程序部署在多台服务器上,并使用负载均衡来分散连接负载,从而减少单台服务器上的Time_wait数量。 5. 升级硬件设备:如果经济条件允许,可以考虑升级服务器的硬件设备,以提高服务器的处理能力和网络吞吐量,从而减少连接的Time_wait状态。 总的来说,处理大量的Time_wait导致连接异常需要综合考虑操作系统、应用程序和硬件设备等方面的因素,并针对具体情况采取相应的措施,以提高连接的性能和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值