TCP socket拔网线判断

最新推荐文章于 2021-05-12 21:21:05 发布

wrhoylj

最新推荐文章于 2021-05-12 21:21:05 发布

阅读量2.9k

点赞数 2

原文链接：https://www.cnblogs.com/mayingkun/p/8076045.html

版权

有些网络应用在网线断开后重新连上的情况下tcp socket连接保持ESTABLISH状态不变，假如应用程式不使用tcp的keepalive，在网线断开之后，以前建立的 socket 链接仍然会保持在ESTABLISH 状态不会改变。实际上tcp协议对这部分是有所处理的，需要服务端程式，在配置socket属性时，使用 keepalive option，一旦有此配置，这些长时间无数据的链接会根据tcp的keepalive内核属性，在大于(tcp_keepalive_time(tcp_keepalive_probes * tcp_keepalive_intvl))所对应的时间（单位为秒）之后，断开这些链接。

关于keep alive无论windows，还是linux，keepalive就三个参数：

sk->keepalive_probes: 探测次数

sk->keepalive_time: 探测的超时

sk->keepalive_intvl: 探测间隔

对于一个已经建立的tcp连接，如果在keepalive_time时间内双方没有任何的数据包传输，则开启keepalive功能的一端将发送 eepalive数据包，若没有收到应答，则每隔keepalive_intvl时间再发送该数据包，发送keepalive_probes次。一直没有收到应答，则发送rst包关闭连接。若收到应答，则将计时器清零。例如★：

sk->keepalive_probes = 3;

sk->keepalive_time = 30;

sk->keepalive_intvl = 1;

意思就是说对于tcp连接，如果一直在socket上有数据来往就不会触发keepalive，但是如果30秒一直没有数据往来，则keep alive开始工作：发送探测包，受到响应则认为网络，是好的，结束探测；如果没有相应就每隔1秒发探测包，一共发送3次，3次后仍没有相应，就关闭连接，也就是从网络开始断到你的socket能够意识到网络异常，最多花33秒。但是如果没有设置keep alive，可能你在你的socket（阻塞性）的上面，接收: recv会一直阻塞不能返回，除非对端主动关闭连接，因为recv不知道socket断了。发送：取决于数据量的大小，只要底层协议站的buffer能放下你的发送数据，应用程序级别的send就会一直成功返回，直到buffer满，甚至buffer满了还要阻塞一段时间试图等待buffer空闲，所以你对send的返回值的检查根本检测不到失败。开启了keep alive功能，你直接通过发送接收的函数返回值就可以知道网络是否异常。设置的方法（应用层）：

int keepalive = 1; // 开启keepalive属性

int keepidle = 60; // 如该连接在60秒内没有任何数据往来,则进行探测

int keepinterval = 5; // 探测时发包的时间间隔为5 秒

int keepcount = 3; // 探测尝试的次数.如果第1次探测包就收到响应了,则后2次的不再发.

setsockopt(rs, SOL_SOCKET, SO_KEEPALIVE, (void *)&keepalive , sizeof(keepalive ));

setsockopt(rs, SOL_TCP, TCP_KEEPIDLE, (void*)&keepidle , sizeof(keepidle ));

setsockopt(rs, SOL_TCP, TCP_KEEPINTVL, (void *)&keepinterval , sizeof(keepinterval ));

setsockopt(rs, SOL_TCP, TCP_KEEPCNT, (void *)&keepcount , sizeof(keepcount ));

select和keep alive的关系

select是为单个线程使用多个socket而设计的，跟检测连接无关，如果只是检测一个socket的话，没有必要使用select。开了keepalive机能的话，每次调用recv或send时检查返回值，判断是否出错或为0。如果出错，再检查errno查资料，看哪个或哪几个错误号表示链接断了或不存在就可以了。

另外，谁想定期检查连接状况,谁就启用keep alive。另一端可以不起，只是被动地对探测包进行响应，这种响应是tcp协议的基本要求，跟keep alive无关，并不需要客户端和服务器端都开启keep alive。

测试结果

按照以上举例★的值在一端的socket上开启keep alive，然后阻塞在一个recv或者不停的send，这个时候拔了网线，测试从拔掉网线到recv/send返回失败的时间。

在linux kernel里头的测试发现，对于阻塞型的socket，当recv的时候，如果没有设置keep alive，即使网线拔掉或者ifdown，recv很长时间不会返回，最长达17分钟，虽然这个时间比linux的默认超时时间短了很多。但是如果设置了keep alive，基本都在keepalive_time+keepalive_probes*keepalive_intvl =33秒内返回错误。

但是对于循环不停send的socket，当拔掉网线后，会持续一段时间send返回成功（0~10秒左右，取决于发送数据的量），然后send阻塞，因为协议层的buffer满了，在等待buffer空闲，大概90秒左右后才会返回错误。由此看来，send的时候，keep alive似乎没有起到作用，这个原因至今也不清楚。后来通过给send之前设置timer来解决的。