前段时间业务团队在使用某平台中转服务的时候,偶尔出现connect失败的情况。这里简单总结下connect失败的可能原因,供参考。
一。网络不通
由于iptables防火墙隔离等原因,导致两台机器之间无法连接。
二。网络波动
偶尔出现的网络故障,导致两台机器之间连接失败。一般可以通过ping找到蛛丝马迹
三。client端分配不到“端口”
可能的原因有2个:
1.内核端口区间配置的太小。比如:
$ cat /proc/sys/net/ipv4/ip_local_port_range
32768 40000
可以调整成1024 65535, 注意1024以下是高危端口,不要使用
2. 没有开启快速回收,在有大量tcp短连接的情况下,可能导致connect的时候分配不到端口。
开启快速回收:
echo 1 >/proc/sys/net/ipv4/tcp_tw_recycle # 开启快速回收
echo 1 >/proc/sys/net/ipv4/tcp_tw_reuse # 开启重用
四。server端的连接队列配置的过小
1.server端接受syn包的队列太小。比如:
$ cat /proc/sys/net/ipv4/tcp_max_syn_backlog
1024
可以适当调大,比如调整到4096
2.server端socket listen backlog太小。
2.1 内核参数somaxconn太小, 比如:
$ cat /proc/sys/net/core/somaxconn
128
可以适当调大,比如调整到1024
2.2 代码中listen(int sockfd, int backlog)的backlog太小, 适当调大, 比如调整到1024
五。server繁忙、处理能力太弱
由于server过渡繁忙,或者server处理非常耗时,导致不能即时的accept客户端的连接。如果是进程数太少则调大进程数, 否则可能需要扩容