实际生产环境中,不时会有网络连接异常中断导致应用功能异常的问题出现。这往往是因为TCP连接长期空闲,超过防火墙允许的超时时间所致,使用TCP KeepAlive是解决问题的方法之一,主要有两部分工作:
1、应用创建TCP连接时启用SO_KEEPALIVE
2、操作系统TCP KeepAlive参数与网络防火墙配置匹配,关键是保证TCP保活报文发送间隔时间必须小于网络防火墙超时时间
Socket启用SO_KEEPALIVE
应用代码中应确保服务端和客户端至少一方启用KeepAlive:
setsockopt(s, SOL_SOCKET, SO_KEEPALIVE, &optval, optlen) < 0)
AIX检查方法
netstat -ano | more
Active Internet connections (including servers)
Proto Recv-Q Send-Q Local Address Foreign Address (state)
tcp4 0 0 10.0.125.64.23 10.25.171.189.59853 ESTABLISHED
so_options: (REUSEADDR|KEEPALIVE|OOBINLINE)
so_state: (ISCONNECTED|NBIO)
timeo:0 uid:0
so_special: (NOUAREA|LOCKABLE|EXTPRIV|MEMCOMPRESS|DISABLE)
so_special2: (PROC)
sndbuf:
hiwat:65535 lowat:16383 mbcnt:0 mbmax:262140
sb_flags: (SEL|NOINTR|INHERIT|NOTIFY)
rcvbuf:
hiwat:262800 lowat:1 mbcnt:0 mbmax:1051200
sb_flags: (SEL|NOINTR|INHERIT|NOTIFY)
TCP:
mss:1460 flags: (RFC1323|SACK_PROCESS|SACK_GENERATE|LARGESEND|VIRTUAL_LARGESEND|SENT_LS|RCVD_LS|COPYFLAGS)
so_options一行有KEEPALIVE即为启用
Linux检查方法
[wangzj@localhost ~]$ ss -eet
State Recv-Q Send-Q Local Address:Port Peer Address:Port
ESTAB 0 0 10.0.122.218:ssh 10.25.171.238:53822 timer:(keepalive,33min,0) ino:270413 sk:ffff880131c1da00
ESTAB 0 0 10.0.122.218:ssh 10.0.122.218:54599 ino:400032 sk:ffff880131c1bc00
第一个连接启用了keepalive,第二个没有。
操作系统TCP KeepAlive参数
参数说明
Linux
TCP KeepAlive参数分别为tcp_keepalive_intvl、tcp_keepalive_time、tcp_keepalive_probes
[root@localhost ~]# sysctl -a | grep keep
net.ipv4.tcp_keepalive_intvl = 75
net.ipv4.tcp_keepalive_probes = 9
net.ipv4.tcp_keepalive_time = 7200
AIX
对应参数为tcp_keepintvl、tcp_keepidle、tcp_keepcnt
[/home/wangzj]> no -a | grep tcp_keep
tcp_keepcnt = 8
tcp_keepidle = 14400
tcp_keepintvl = 150
tcp_keepalive_time(tcp_keepidle)为对一个连接进行第一次有效性探测之前运行的最大非活跃时间间隔,或者探测成功后进行下一次探测的时间间隔。
tcp_keepalive_intvl(tcp_keepintvl)为探测失败后发起下一次探测的时间间隔。
tcp_keepalive_probes(tcp_keepcnt)为关闭一个非活跃连接之前探测失败的最大次数。
注意:linux平台下三个参数的单位为秒,AIX平台下单位为0.5秒。tcp_keepalive_time(tcp_keepidle)即为最大TCP保活报文发送间隔时间,需保证小于网络防火墙超时时间。
参数修改
Linux
临时将tcp_keepalive_intvl、tcp_keepalive_time、tcp_keepalive_probes分别修改为30秒、1800秒、5次,命令如下:
#sysctl -w net.ipv4.tcp_keepalive_intvl=30
#sysctl -w net.ipv4.tcp_keepalive_time=1800
#sysctl -w net.ipv4.tcp_keepalive_probes=5
对所有连接包括已建连接立即生效,但如果从较大值(180)调整到较小值(30)需要等待原计时结束后才能生效,即最长需要等待一个原计时周期(间隔周期180秒)。需永久生效应将参数写入/etc/sysctl.conf文件。
AIX
将tcp_keepalive_intvl、tcp_keepidle、tcp_keepcnt 分别修改为30秒、1800秒、5次,命令如下:
no -p -o tcp_keepcnt=5
no -p -o tcp_keepidle=3600
no -p -o tcp_keepintvl=60