高并发场景大量TIME_WAIT导致虚拟机响应变慢

6 篇文章 0 订阅
本文分析了在抢兑活动导致的高并发场景中,nginx服务器出现大量TIME_WAIT连接的问题,影响了服务响应速度。通过检查nginx配置和Linux内核参数,发现TCP连接超时和端口资源限制是关键因素。解决方案包括调整内核参数以减少TIME_WAIT状态的持续时间,增加端口复用,并优化TCP连接的相关设置,以提高服务器在高并发情况下的性能。
摘要由CSDN通过智能技术生成

一、事件现象

抢兑时,大量用户准点抢兑商品,后端nginx存在大量请求返回5**

二、事件分析

1、查看nginx日志发现
nginx添加了检测模块,当后端tcp连接响应超时的话,会将故障节点移除集群

check interval=5000 rise=1 fall=3 timeout=1000 type=tcp;

nginx在检测间隔为5s,如果在建立TCP连接时,有1次请求成功则节点为up;如果有3次请求失败则节点为fail ,超时时间为1s

2、为什么建立TCP连接耗时超过1s?
发现高并发场景是,虚拟机TCP连接数达到11k个TIME_WAIT状态连接。占用了大量的端口

###查询linux TCP连接状态
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}' 

TIME_WAIT状态:四次挥手后,当服务器处理完请求后立刻主动正常关闭连接,客户端TCP会出现TIME_WAIT状态。持续时间为2mls(报文最大生存时间)。
默认为4分钟,即240秒,TIME_WAIT状态下的socket不能被回收使用.

在高并发场景下,nginx服务器出现大量TIME_WAIT连接,导致响应变慢

三、措施

修改内核参数

vi /etc/sysctl.conf
#1表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭;
net.ipv4.tcp_syncookies = 1
#1表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭;
net.ipv4.tcp_tw_reuse = 1
#1表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭。
net.ipv4.tcp_tw_recycle = 1
#修改系統默认的TIMEOUT时间
net.ipv4.tcp_fin_timeout = 30
#参数生效
/sbin/sysctl -p

#查看TIME_WAIT连接数
netstat -ae|grep “TIME_WAIT” |wc –l

四、一台服务器能够支持多少TCP并发连接

1、操作系统对可以打开的最大文件数的限制。

#查看可以打开的文件数
 ulimit -n
#修改文件句柄数
vim /etc/sysctl.conf
#表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为20分钟。
net.ipv4.tcp_keepalive_time = 1200 
#表示用于向外连接的端口范围。缺省情况下很小:32768到61000,改为1024到65000。
net.ipv4.ip_local_port_range = 1024 65000 
#表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
net.ipv4.tcp_max_syn_backlog = 8192 
#表示系统同时保持TIME_WAIT套接字的最大数量,如果超过这个数字,TIME_WAIT套接字将立刻被清除并打印警告信息。
net.ipv4.tcp_max_tw_buckets = 5000 
#默认为180000,改为5000。对于Apache、Nginx等服务器,上几行的参数可以很好地减少TIME_WAIT套接字数量,但是对于 Squid,效果却不大。此项参数可以控制TIME_WAIT套接字的最大数量,避免Squid服务器被大量的TIME_WAIT套接字拖死。

2、端口范围的限制
操作系统上端口号1024以下是系统保留的,从1024-65535是用户使用的。

标识一个TCP 连接

统使用一个4四元组来唯一标识一个TCP连接:本地端口号 local port、本地IP地址 local ip、远端端口号 remote port、远端IP地址 remote ip。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: 如果大量Time_wait 状态导致连接异常,有几种方法可以尝试解决问题。 1. 减少 TIME_WAIT 超时时间:TIME_WAIT 状态是为了保证数据传输的完整性,因此在服务器端可以通过调整系统参数来减少 TIME_WAIT 超时时间。 2. 使用负载均衡转发连接:如果服务器端的连接数过多,可以使用负载均衡转发连接,将连接分摊到多台服务器上。 3. 使用 TCP 快速回收:TCP 快速回收是一种优化网络性能的方法,可以在系统内核中设置,可以减少 TIME_WAIT 状态的存在时间。 4. 使用网络优化软件:如果想要快速解决问题,可以使用专业的网络优化软件,例如 TCP Optimizer 等。这些软件可以通过调整系统参数和优化网络连接,帮助您快速解决问题。 5. 使用 TCP Keepalive:TCP Keepalive 可以在服务器端和客户端之间建立持久连接,避免连接断开后导致TIME_WAIT 状态。 6. 使用传输层网关:传输层网关可以代替服务器端和客户端之间的直接连接,可以控 ### 回答2: 在处理大量Time_wait导致连接异常的问题时,可以采取以下方法: 1. 调整操作系统参数:根据具体情况调整操作系统的参数,增加可用的端口范围和同时处于time_wait状态的连接数量。可以通过修改sysctl.conf文件(Linux环境)或者Registry(Windows环境)来进行相应配置。 2. 减少连接time_wait时间:可以通过修改操作系统或应用程序的配置,减少连接进入time_wait状态的时间,使得端口更快地释放,从而供新的连接使用。 3. 优化应用程序代码:对于使用大量连接的应用程序,可以优化代码逻辑,尽量减少连接的创建和终止次数,使用长连接代替短连接,从而避免产生太多的time_wait连接。 4. 使用连接复用:对于频繁连接同一目标IP和端口的情况,可以考虑使用连接复用技术,如HTTP/1.1的keep-alive或者TCP连接池,将多次请求共享一个连接,减少连接的创建和关闭次数。 5. 加大服务器资源:如果以上方法无法解决问题,可以考虑增加服务器的硬件资源,如扩大CPU、内存或者使用更高性能的网络设备,以提升服务器的处理能力和并发连接处理能力。 综上所述,处理大量Time_wait导致连接异常需要结合操作系统参数调整、优化应用程序代码、使用连接复用等多种方法来解决,具体应根据具体情况灵活选择。同时,定期进行服务器性能监控和调优也是保障连接正常运行的重要手段。 ### 回答3: 处理大量Time_wait导致连接异常,可以采取以下几个措施: 1. 调整操作系统的TCP参数:可以通过调整操作系统的TCP参数,来减少Time_wait的数量。例如,可以增加TIME_WAIT的最大数量限制,或者缩短TIME_WAIT的超时时间。 2. 调整应用程序的连接参数:可以在应用程序中设置连接参数,来减少连接Time_wait状态。例如,可以设置TCP连接的SO_REUSEADDR选项,以允许在同一端口上快速重新建立连接。 3. 优化应用程序的连接管理:可以优化应用程序的连接管理,以更好地复用连接资源。比如,可以使用连接池来管理数据库连接,或者使用长连接来减少连接的建立和关闭次数。 4. 分布式部署和负载均衡:可以通过将应用程序部署在多台服务器上,并使用负载均衡来分散连接负载,从而减少单台服务器上的Time_wait数量。 5. 升级硬件设备:如果经济条件允许,可以考虑升级服务器的硬件设备,以提高服务器的处理能力和网络吞吐量,从而减少连接Time_wait状态。 总的来说,处理大量Time_wait导致连接异常需要综合考虑操作系统、应用程序和硬件设备等方面的因素,并针对具体情况采取相应的措施,以提高连接的性能和稳定性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值