linux服务器出现大量TIME_WAIT的解决方法

一、大量TIME_WAIT造成的影响

在高并发短连接的TCP服务器上,当服务器处理完请求后立刻主动正常关闭连接。这个场景下会出现大量socket处于TIME_WAIT状态。如果客户端的并发量持续很高,此时部分客户端就会显示连接不上。

我来解释下这个场景。主动正常关闭TCP连接,都会出现TIMEWAIT。

 

为什么我们要关注这个高并发短连接呢?有两个方面需要注意:

1. 高并发可以让服务器在短时间范围内同时占用大量端口,而端口有个0~65535的范围,并不是很多,刨除系统和其他服务要用的,剩下的就更少了。

2. 在这个场景中,短连接表示“业务处理+传输数据的时间 远远小于 TIMEWAIT超时的时间”的连接。

 

      这里有个相对长短的概念,比如取一个web页面,1秒钟的http短连接处理完业务,在关闭连接之后,这个业务用过的端口会停留在TIMEWAIT状态几分钟,而这几分钟,其他HTTP请求来临的时候是无法占用此端口的(占着茅坑不拉翔)。单用这个业务计算服务器的利用率会发现,服务器干正经事的时间和端口(资源)被挂着无法被使用的时间的比例是 1:几百,服务器资源严重浪费。(说个题外话,从这个意义出发来考虑服务器性能调优的话,长连接业务的服务就不需要考虑TIMEWAIT状态。同时,假如你对服务器业务场景非常熟悉,你会发现,在实际业务场景中,一般长连接对应的业务的并发量并不会很高。

     综合这两个方面,持续的到达一定量的高并发短连接,会使服务器因端口资源不足而拒绝为一部分客户服务。同时,这些端口都是服务器临时分配,无法用SO_REUSEADDR选项解决这个问题。

二、解决方案

使用命令:netstat -an | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'  查看连接状态统计

 

使用命令:vim /etc/sysctl.conf

编辑文件,加入以下内容:

net.ipv4.tcp_syncookies = 1  (某些情况下该参数已启用)

net.ipv4.tcp_tw_reuse = 1

net.ipv4.tcp_tw_recycle = 1

net.ipv4.tcp_fin_timeout = 30

然后执行/sbin/sysctl -p让参数生效。

 

 

net.ipv4.tcp_syncookies = 1表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;

net.ipv4.tcp_tw_reuse = 1表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;

net.ipv4.tcp_tw_recycle = 1表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。

net.ipv4.tcp_fin_timeout修改系統默认的TIMEOUT时间

当TIME_WAIT超过linux系统tw数量的阀值(可用数量不会大于65535),系统会把多余的time-wait socket 删除掉,并且显示警告信息,如果是NAT网络环境又存在大量访问,会产生各种连接不稳定断开的情况,从而影响了服务的稳定性。

三、状态的产生

要解决TIME_WAIT状态过多的问题,先来研究下TIME_WAIT状态的产生,下面是TCP连接断开时的四次挥手状态转换图,说明一点,途中显示的是客户端主动断开连接,tcp连接也可以由服务器端主动断开连接。我们先来描述一下断开的状态:

 

1)客户端进程发出连接释放报文,并且停止发送数据。释放数据报文首部,FIN=1,其序列号为seq=u(等于前面已经传送过来的数据的最后一个字节的序号加1),此时,客户端进入FIN-WAIT-1(终止等待1)状态。 TCP规定,FIN报文段即使不携带数据,也要消耗一个序号。

2)服务器收到连接释放报文,发出确认报文,ACK=1,ack=u+1,并且带上自己的序列号seq=v,此时,服务端就进入了CLOSE-WAIT(关闭等待)状态。TCP服务器通知高层的应用进程,客户端向服务器的方向就释放了,这时候处于半关闭状态,即客户端已经没有数据要发送了,但是服务器若发送数据,客户端依然要接受。这个状态还要持续一段时间,也就是整个CLOSE-WAIT状态持续的时间。

3)客户端收到服务器的确认请求后,此时,客户端就进入FIN-WAIT-2(终止等待2)状态,等待服务器发送连接释放报文(在这之前还需要接受服务器发送的最后的数据)。

4)服务器将最后的数据发送完毕后,就向客户端发送连接释放报文,FIN=1,ack=u+1,由于在半关闭状态,服务器很可能又发送了一些数据,假定此时的序列号为seq=w,此时,服务器就进入了LAST-ACK(最后确认)状态,等待客户端的确认。

5)客户端收到服务器的连接释放报文后,必须发出确认,ACK=1,ack=w+1,而自己的序列号是seq=u+1,此时,客户端就进入了TIME-WAIT(时间等待)状态。注意此时TCP连接还没有释放,必须经过2MSL(最长报文段寿命,RFC规定一个MSL为2min,linux中一般设置为30s)的时间后,当客户端撤销相应的TCB后,才进入CLOSED状态。

6)服务器只要收到了客户端发出的确认,立即进入CLOSED状态。同样,撤销TCB后,就结束了这次的TCP连接。可以看到,服务器结束TCP连接的时间要比客户端早一些。

可以看到TIME_WAIT状态产生是在tcp连接主动关闭的一端产生的正常tcp状态,超过两个MSL之后,就会关闭,释放占用的端口。基于以上的分析我们可以推断,在我们的应用中产生大量TIME_WAIT状态的根本原因是频繁创建断开连接TCP连接。要解决TIME_WATIT状态过多的问题,就要分析我们的应用把频繁创建的短连接改为长连接。

四、常见的短连接产生的场景

1.服务连接服务

后台业务服务器,通常需要调用redis、mysql以及其他http服务和grpc服务,在服务相互调用中,如果使用的是短连接,高并发时就会产生大量TIME_WAIT,如何解决呢?一般情况下,redis等客户端会有连接池,我们要做的是设置好相关的连接服用参数,一般会有连接数、连接重用时间、连接空闲数等。所以在应用中通过设置合理的连接池参数可以避免TIME_WAIT状态过多的问题:

1.检查http连接池

2.检查grpc连接池

3.检查redis连接池

4.检查mysql连接池

...

我们来查看一个mysql连接池配置信息,最大连接数100,最大空闲连接数10,测试的并发数50,产生的效果如下:

2.网络抖动

 

      网络情况不好时,如果主动方无TIME_WAIT等待,关闭前个连接后,主动方与被动方又建立起新的TCP连接,这时被动方重传或延时过来的FIN包过来后会直接影响新的TCP连接。同样网络情况不好并且无TIME_WAIT等待,关闭连接后无新连接,当接收到被动方重传或延迟的FIN包后,会给被动方回一个RST包,可能会影响被动方其它的服务连接。

网络抖动问题比较好排查,直接使用ping命令可以观察到。

 

 

  • 6
    点赞
  • 21
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果大量Time_wait 状态导致连接异常,有几种方法可以尝试解决问题。 1. 减少 TIME_WAIT 超时时间:TIME_WAIT 状态是为了保证数据传输的完整性,因此在服务器端可以通过调整系统参数来减少 TIME_WAIT 超时时间。 2. 使用负载均衡转发连接:如果服务器端的连接数过多,可以使用负载均衡转发连接,将连接分摊到多台服务器上。 3. 使用 TCP 快速回收:TCP 快速回收是一种优化网络性能的方法,可以在系统内核中设置,可以减少 TIME_WAIT 状态的存在时间。 4. 使用网络优化软件:如果想要快速解决问题,可以使用专业的网络优化软件,例如 TCP Optimizer 等。这些软件可以通过调整系统参数和优化网络连接,帮助您快速解决问题。 5. 使用 TCP Keepalive:TCP Keepalive 可以在服务器端和客户端之间建立持久连接,避免连接断开后导致的 TIME_WAIT 状态。 6. 使用传输层网关:传输层网关可以代替服务器端和客户端之间的直接连接,可以控 ### 回答2: 在处理大量Time_wait导致连接异常的问题时,可以采取以下方法: 1. 调整操作系统参数:根据具体情况调整操作系统的参数,增加可用的端口范围和同时处于time_wait状态的连接数量。可以通过修改sysctl.conf文件(Linux环境)或者Registry(Windows环境)来进行相应配置。 2. 减少连接的time_wait时间:可以通过修改操作系统或应用程序的配置,减少连接进入time_wait状态的时间,使得端口更快地释放,从而供新的连接使用。 3. 优化应用程序代码:对于使用大量短连接的应用程序,可以优化代码逻辑,尽量减少连接的创建和终止次数,使用长连接代替短连接,从而避免产生太多的time_wait连接。 4. 使用连接复用:对于频繁连接同一目标IP和端口的情况,可以考虑使用连接复用技术,如HTTP/1.1的keep-alive或者TCP的连接池,将多次请求共享一个连接,减少连接的创建和关闭次数。 5. 加大服务器资源:如果以上方法无法解决问题,可以考虑增加服务器的硬件资源,如扩大CPU、内存或者使用更高性能的网络设备,以提升服务器的处理能力和并发连接处理能力。 综上所述,处理大量Time_wait导致连接异常需要结合操作系统参数调整、优化应用程序代码、使用连接复用等多种方法解决,具体应根据具体情况灵活选择。同时,定期进行服务器性能监控和调优也是保障连接正常运行的重要手段。 ### 回答3: 处理大量Time_wait导致连接异常,可以采取以下几个措施: 1. 调整操作系统的TCP参数:可以通过调整操作系统的TCP参数,来减少Time_wait数量。例如,可以增加TIME_WAIT的最大数量限制,或者缩短TIME_WAIT的超时时间。 2. 调整应用程序的连接参数:可以在应用程序中设置连接参数,来减少连接的Time_wait状态。例如,可以设置TCP连接的SO_REUSEADDR选项,以允许在同一端口上快速重新建立连接。 3. 优化应用程序的连接管理:可以优化应用程序的连接管理,以更好地复用连接资源。比如,可以使用连接池来管理数据库连接,或者使用长连接来减少连接的建立和关闭次数。 4. 分布式部署和负载均衡:可以通过将应用程序部署在多台服务器上,并使用负载均衡来分散连接负载,从而减少单台服务器上的Time_wait数量。 5. 升级硬件设备:如果经济条件允许,可以考虑升级服务器的硬件设备,以提高服务器的处理能力和网络吞吐量,从而减少连接的Time_wait状态。 总的来说,处理大量Time_wait导致连接异常需要综合考虑操作系统、应用程序和硬件设备等方面的因素,并针对具体情况采取相应的措施,以提高连接的性能和稳定性。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值