这几天在排查一个问题,socket 端口无法释放,差的过程中一点笔记:
经典的3次握手,4次挥手,主要看状态:
服务端监听后为 s(listen)
客户端请求后为 c(syn_sent)
3次握手:
c(syn_sent) -> syn -> s(listen)
s(syn_rcvd) -> syn,ack -> c(established)
s(established)
4次挥手:
c(fin_wait_1) -> fin -> s(close_wait)
s(close_wait) -> ack -> c(fin_wait_2) 客户主动关闭连接后,服务器处在close_wait状态,无限时间
s(last_ack) -> fin -> c(time_wait)
c(time_wait) -> ack -> s(closed) 服务器调用close后,客户机会进入time_wait状态,2msl,默认几分钟,微軟建議最低可設定續存時間為 30 秒,而且也提到設定 30 秒應該不會出問題
Windows Registry Editor Version 5.00 [HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\services\Tcpip\Parameters] "TcpTimedWaitDelay"=dword:0000001e
经常出现time_wait比较多的问题,设置参数无非几个:
首次谁先close谁就会进入time_wait状态;
下面来看一下我们网管对/etc/sysctl.conf文件的修改:
[plain] view plaincopyprint?
- #对于一个新建连接,内核要发送多少个 SYN 连接请求才决定放弃,不应该大于255,默认值是5,对应于180秒左右时间
- net.ipv4.tcp_syn_retries=2
- #net.ipv4.tcp_synack_retries=2
- #表示当keepalive起用的时候,TCP发送keepalive消息的频度。缺省是2小时,改为300秒
- net.ipv4.tcp_keepalive_time=1200
- net.ipv4.tcp_orphan_retries=3
- #表示如果套接字由本端要求关闭,这个参数决定了它保持在FIN-WAIT-2状态的时间
- net.ipv4.tcp_fin_timeout=30
- #表示SYN队列的长度,默认为1024,加大队列长度为8192,可以容纳更多等待连接的网络连接数。
- net.ipv4.tcp_max_syn_backlog = 4096
- #表示开启SYN Cookies。当出现SYN等待队列溢出时,启用cookies来处理,可防范少量SYN攻击,默认为0,表示关闭
- net.ipv4.tcp_syncookies = 1
- #表示开启重用。允许将TIME-WAIT sockets重新用于新的TCP连接,默认为0,表示关闭
- net.ipv4.tcp_tw_reuse = 1
- #表示开启TCP连接中TIME-WAIT sockets的快速回收,默认为0,表示关闭
- net.ipv4.tcp_tw_recycle = 1
- ##减少超时前的探测次数
- net.ipv4.tcp_keepalive_probes=5
- ##优化网络设备接收队列
- net.core.netdev_max_backlog=3000
[plain] view plaincopyprint?
修改完之后执行/sbin/sysctl -p让参数生效。
这里头主要注意到的是
net.ipv4.tcp_tw_reuse/net.ipv4.tcp_tw_recycle 开启都是为了回收处于TIME_WAIT状态的资源
net.ipv4.tcp_fin_timeout 时间可以减少在异常情况下服务器从FIN-WAIT-2转到TIME_WAIT的时间
net.ipv4.tcp_keepalive_* 一系列参数,是用来设置服务器检测连接存活的相关配置
这几个参数。
time_wait状态的逻辑主要出于以下两个方面的考虑:
1.防止上一次连接中的包,迷路后重新出现,影响新连接(经过2MSL,上一次连接中所有的重复包都会消失)
2. 可靠的关闭TCP连接。在主动关闭方发送的最后一个 ack(fin) ,有可能丢失,这时被动方会重新发fin, 如果这时主动方处于 CLOSED 状态 ,就会响应 rst 而不是 ack。所以主动方要处于 TIME_WAIT 状态,而不能是 CLOSED 。另外这么设计TIME_WAIT 会定时的回收资源,并不会占用很大资源的,除非短时间内接受大量请求或者受到攻击。
close_wait的原因也很明确:
这个状态是被动关闭,会长时间保持,如果代码设计不当,链接会永远关不了;
通过服务器内核参数也没办法解决,服务器对于程序抢占的资源没有主动回收的权利,除非终止程序运行。