编写TCP服务程序的时候,一般都需要空闲检测。当对端以非优雅的方式断开连接(掉线、崩溃或者强行结束进程)的时候,可以通过空闲检测释放本端的连接和资源。
一般来说需要在程序自身在业务逻辑层实现TCP连接的空闲检测,或者叫做超时、心跳检测。定时去发送自定义格式的探测报文,如果连续几次对端未响应则认为对端已经断开。
其实,操作系统底层TCP协议栈已经提供了 keepalive 检测功能,是我这种懒人码农的福音,自己就不用动手实现空闲检测的代码了,能省就省。
例如linux内核包含了对keep alive的支持,有三个参数,tcp_keepalive_time、tcp_keepalive_intvl、tcp_keepalive_probes ,可以通过setsocketopt改变设置。默认间隔为2个小时,TCP连接上两个小时内无任何活动,操作系统就向对端发送一个tcp保活探测,这时,有三种情况。
1.客户端依旧活跃,回应响应报文;
2.客户端已经崩溃或者离线,则不会回应,75秒后超时,一共发送10个探测包,最后宣告连接断开,关闭套接字,抛出异常。
3.客户端已经重启ok,则对服务器的探测报文回应一个rst。
启用keepalive的方法,以python为例:
sock.setsockopt(socket.SOL_SOCKET,socket.SO_KEEPALIVE,True)
在linux上执行 ss -o 观察套接字选项:
ESTAB 0 0 192.168.199.199:16390 210.21.236.135:42836 timer:(keepali