linux socket资源耗尽,TCP的socket资源被耗尽的问题

本文描述了一次由于Linux服务器TCP Socket资源耗尽导致的EPG服务异常,表现为服务器频繁进出LVS集群,大量inactive连接。故障诊断发现是由于句柄数限制导致的。解决方案包括提升句柄数限制和调整相关TCP内核参数,避免类似故障的发生。
摘要由CSDN通过智能技术生成

c4468b3f4df77e96b0a416fa2a870fba.png

一、 故障现象

部分机顶盒用户出现大面积登录APP时,界面停留在登陆页面,无反应。

二、现象初步分析

本次问题出现时,所有AAA出现了异常流量波动,在AAA异常流量段期间接到用户故障报障。此时主要表现在LVS集群显示真实的EPG 服务器不停的被踢出集群和加入(UP/DOWN),导致了用户调度到EPG后出现了异常显示。

AAA异常流量图

04b33d64b788722b4afb8630666fa366.png

三、问题排查过程

接到故障后第一时间对AAA/EPG后台日志进行了查看,发现用户接入认证和响应都正常,观察到EPG 的LVS集群中有服务器的inactive连接数异常并且随机出现不同EPG服务器被踢出和加入集群,随后对EPG 的LVS集群的状态进行了跟踪和抓包分析,为了快速恢复业务随后重启了EPG tomcat并进行了LVS的主备切换,业务故障恢复。

四、诊断分析结果

出现故障时通过LVS的日志可以看到5台EPG服务器在轮询的出现连接失败和连接成功的情况,也就是一台OK后,另一台出现连接失败,如此反复的表现在5台EPG服务器上

fd3590989c752655c6eb4be0b0feb969.png

此时被UP/DOWN的EPG会出现大量的inactive

fe9daf8ea14a7ff632e0665f7b3188b4.png

此时对集群出现UP/DOWM的服务器进行抓包,发现客户端发出了SYN报

文,但是EPG服务器没有响应,并且响应报文发不出去不停的retransmission。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值