Linux系统 阻塞socket遇到网络故障

最近DBScal在客户那里做切换演练的时候,由于碰到recv读阻塞,导致切换失败。

 

问题的简化描述如下:

 

1. 机器A 跑client, 机器B 跑 server;

2. client每5s钟会向server发数据包去核对server的状态;

3. shutdown 机器B (关机过程需要大约10s,甚至更多);

4. client阻塞在 linux的recv函数,直到15分钟超时 (send函数成功了)

 

分析原因:

当机器B停机过程中(server端的socket已经关闭? 这个需要确认下正常shutdown过程中centos系统是如何处理socket的,按理来说关机的话TCP协议应该会发送断开连接的通知),clientA执行send的时候应该只是把数据包拷贝到的发送缓存,所以send返回成功。然后clientA执行recv函数的时候,它首先会将发送缓存中的数据发送出去(除send以外的socket函数都会这么做),这个时候机器A与B之间的网络连接已经断开,所以client肯定收不到TCP协议所需要的确认包ACK,这时client端根据TCP协议会进行重发,重发的次数由“/proc/sys/net/ipv4/tcp_retries2”决定,默认是15次,大约需要耗时15分钟(这个可以使用tcpdump确认一下),然后返回ETIMEDOUT或EHOSTUNREAC错误。

 

机器B是正常关闭的,按理来说关机的时候内核会往socket对端发fin包的啊,难道TCP协议等待send的ack包时不处理fin包,为什么还一直重发呢?

估计是因为TCP的关闭过程是4次握手,实际上client端那个时候的socket是半双工的(server到client的已经关闭,但client到server的还没关闭,因为还有数据没发完),处于“CLOSE_WAIT”状态,尝试将要发送的数据发送给对方(即一直在send重发)。(查看下TCP/IP在关闭过程中如何处理半双工状态下发送的包

 

注1:send的失败重试时间间隔策略为

“第一次重发是在6.55秒以后,然后增加到42.80秒,然后又减到5.34秒和6.55秒,然后又回到42.79秒。这种不确定的情况一直继续下去。如果计算一下两次重发之间的时间间隔,我们发现存在一种双倍的关系:从5.34到6.55是1.21秒,从 6.55到8.97是2.42秒,从8.97到13.80是4.83秒,一直这样继续下去。当时间间隔达到某个阈值时(大于42.80秒),它又重新置为5.34秒。”

 

注2:手册上说send/recv过程中如果网络端口的话,调用send/recv的进程会收到一个SIGPIPE信号,测试中的程序默认屏蔽了这个信号。

 

注3: 异步socket的send在网络刚断开的时候是会发送成功的,但几秒钟之后再send就会失败并返回-1。

 

注4:本文说的是对端机器正常shutdown,如果拔网线的话,并且碰到本端TCP协议正在recv,那么可能永远等待(如果没有设置超时的话)。

 

注5: (摘抄自网上)

TCP断开时的四次挥手
客户端:FIN_WAIT_1>FIN_WAIT_2->TIME_WAIT->CLOSED
服务器:CLOSE_WAIT->LAST_ACK->CLOSED

“主动关闭方和被动方经历的状态:
FIN_WAIT_1(主动关闭一方): 当SOCKET在ESTABLISHED状态时,它想主动关
闭连接,向对方发送了FIN报文,此时该SOCKET即进入到
FIN_WAIT_1状态。而当对方回应ACK报文后,则进入到FIN_WAIT_2状态,
FIN_WAIT_2(主动关闭一方):上面已经详细解释了这种状态,实际上FIN_WAIT_2
状态下的SOCKET,表示半连接,也即有一方要求close连接,但另外还告诉对方,我暂时还有点数据需要传送给你,稍后再关闭连接。
TIME_WAIT(主动关闭一方): 表示收到了对方的FIN报文,并发送出了ACK报文
就等2MSL(2倍最大生存时间)后即可回到CLOSED可用状态了。
CLOSE_WAIT(被动关闭一方): 这种状态的含义其实是表示在等待关闭。当对方
close一个SOCKET后发送FIN报文给自己,你系统毫无疑问地会回应
一个ACK报文给对方,此时则进入到CLOSE_WAIT状态。接下来呢,实际上你真正需要考虑的事情是察看你是否还有数据发送给对方,如果没有的话,那么你也就可以close这个SOCKET,发送FIN报文给对方,也即关闭连接。所以你在CLOSE_WAIT状态下,需要完成的事情是等待你去关闭连接。
LAST_ACK(被动关闭一方): 它是被动关闭一方在发送FIN报文后,最后等待对方的
ACK报文。当收到ACK报文后,也即可以进入到CLOSED可用状态”

 

解决办法:

1.设置阻塞recv函数的超时时间

2. 或用非阻塞recv函数

 

 

参考:http://biancheng.dnbcw.info/linux/312594.html

 

转载请注明出自高孝鑫的博客

已标记关键词 清除标记
©️2020 CSDN 皮肤主题: 大白 设计师:CSDN官方博客 返回首页