es的链接老是断开怎么办_ESFramework 经验分享 -- 故障排查:批量心跳超时掉线...

心跳超时指的是:针对某个在线的客户端(TCP连接),ESFramework服务端在指定的时间内(默认为30秒)没有收到来自该客户端的任何消息,则认为该客户端已经掉线。

为什么需要心跳机制了?因为针对某些客户端掉线(可能是因为网络断开、或客户端程序退出),服务端不能立即感受到(有的可能需要过很长的时间才能感受到),所以,需要引入心跳机制,让服务端尽可能早地发现客户端已经不在线了。关于心跳机制,更详细的介绍请参见:ESFramework

开发手册(07) -- 掉线与心跳机制。

如果发生了很多客户端批量心跳超时掉线的情况,就说明服务端在过去的某段时间内,从未收到来自这些客户端的任何心跳消息。通常有3种可能性导致该情况发生:

1.CPU或内存使用率过高

在该情况发生时,观察一下服务端进程的CPU和内存是否有异常。

比如,当CPU持续在100%时,就有可能导致接收数据的操作被停止。

2.处理某些信息所花费的时间过长

如果服务端的信息处理模型设定的是IocpDirectly,那么依据IocpDirectly的原理,当处理某个信息所花费的时间超过了服务端设定的心跳超时的时间,服务端就会将对应的客户端误判为心跳超时掉线。

假设是该原因导致的心跳超时,则对应的解决方案有:

(1)找出那些处理非常耗时的信息,进行优化,加快处理速度。

(2)将超时时间间隔设定位一个更大的值或关闭心跳检测。

(3)将信息处理修改为异步模式。

(4)将服务端信息处理模型修改为TaskQueue模式,这样就完全避免了由于信息处理时间过长导致误判的情况。

很显然,方案(1)是最好的也是根本性的解决方案。

3.服务器网络拓扑结构、防火墙、路由器、网络安全监控等相关软硬件

如果排除了前面的可能性(比如,即使改成了TaskQueue模式,批量掉线仍然发生),那么,几乎就只剩下一个可能:服务端在心跳超时时间间隔内未收到来自这些客户端的任何消息。很可能来自客户端的消息被防火墙、路由器、或某些网络完全监控的相关软硬件给挡住了。

此时,需要专业的运维人员或网管人员参与进来,协助排查问题,比如:

(1)在服务器上执行netstat命令,查看目标端口的相关状态信息。

(2)在服务器上执行抓包工具(如Sniffer),监测目标端口上是否有数据从客户端过来。

(3)分析服务器的网络拓扑结构,并以服务器为中心,依次向外检查防火墙、路由器、网络安全监控等相关软硬件等的设定,并进行针对性的排查测试。

4. 技术顾问服务

如果通过以上步骤的排查,还是找不到问题所在,那我们可以为您提供技技术顾问性质的有偿服务,该服务将针对您项目的实际情况(我们会深入了解服务器部署的网络拓扑结构、防火墙、路由器的规则设定、网路安全监控软硬件等相关的详细信息),提供专业的更具针对性的排查指导和解决方案。

----------------------------------------------------------------------------------------------------------------------------

Q Q:168757008

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值