记录下排查网络连接问题导致java假死命令

又再次出现了由于网络连接问题导致的springboot应用假死。先记录几个命令。

查看网络连接情况

netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'

按本地地址统计

netstat -tnp | grep CLOSE_WAIT | awk '{print $4}' | sort | uniq -c | sort -nk1

按远端地址统计

netstat -tnp | grep CLOSE_WAIT | awk '{print $5}' | sort | uniq -c | sort -nk1

过滤指定地址连接

netstat -tnp | grep CLOSE_WAIT | grep 127.0.0.1:8080 | awk '{print $5}' | cut -d':' -f1 | sort | uniq -c | sort -nk1

记录下问题

是由于使用了spring的sse做前后台通讯的消息中心导致的。

前端页面非正常关闭,例如直接关闭浏览器页面。会导致无法执行关闭连接代码。导致客户端未返回关闭的ack,从而导致了大量CLOSE_WAIT的连接,把后台web容器的网络连接数占满了,所以新请求进不去,从而出现故障。

这个问题本身是Spring的SSE组件的bug。记录如下:

首页打开浏览器控制台,执行 s = new EventSource('/api/portal/basiccenter/msg/center/sse/connect?_=1709697522068'); setTimeout(() => s.close(), 1000)
每执行一次 server 端就会多一个 close_wait 连接: netstat -tnp | grep ':8080' | grep CLOSE_WAIT | wc -l
在开启了消息功能的环境刷新、关闭基础中心门户页面和调用 EventSource#close 效果相同。

原因是 server sent events 使用的 servlet async request 功能只能由服务器端主动关闭连接,客户端主动/意外断开连接时,TCP 层发送了关闭信号,服务器端在 TCP 层也做了部分响应,但 servlet 层感知不到,不会关闭连接,因此连接一直残留着,直到被操作系统清理。
Server Side Event - Socket is not released. [SPR-14819] · Issue #19385 · spring-projects/spring-framework · GitHub

要想解决需要自己添加心跳机制进行处理。

后续计划将消息中心独立一个单独服务出去,同时添加keepalive的心跳机制。

  • 9
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值