又再次出现了由于网络连接问题导致的springboot应用假死。先记录几个命令。
查看网络连接情况
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
按本地地址统计
netstat -tnp | grep CLOSE_WAIT | awk '{print $4}' | sort | uniq -c | sort -nk1
按远端地址统计
netstat -tnp | grep CLOSE_WAIT | awk '{print $5}' | sort | uniq -c | sort -nk1
过滤指定地址连接
netstat -tnp | grep CLOSE_WAIT | grep 127.0.0.1:8080 | awk '{print $5}' | cut -d':' -f1 | sort | uniq -c | sort -nk1
记录下问题
是由于使用了spring的sse做前后台通讯的消息中心导致的。
前端页面非正常关闭,例如直接关闭浏览器页面。会导致无法执行关闭连接代码。导致客户端未返回关闭的ack,从而导致了大量CLOSE_WAIT的连接,把后台web容器的网络连接数占满了,所以新请求进不去,从而出现故障。
这个问题本身是Spring的SSE组件的bug。记录如下:
首页打开浏览器控制台,执行 s = new EventSource('/api/portal/basiccenter/msg/center/sse/connect?_=1709697522068'); setTimeout(() => s.close(), 1000)
每执行一次 server 端就会多一个 close_wait 连接: netstat -tnp | grep ':8080' | grep CLOSE_WAIT | wc -l
在开启了消息功能的环境刷新、关闭基础中心门户页面和调用 EventSource#close 效果相同。
原因是 server sent events 使用的 servlet async request 功能只能由服务器端主动关闭连接,客户端主动/意外断开连接时,TCP 层发送了关闭信号,服务器端在 TCP 层也做了部分响应,但 servlet 层感知不到,不会关闭连接,因此连接一直残留着,直到被操作系统清理。
Server Side Event - Socket is not released. [SPR-14819] · Issue #19385 · spring-projects/spring-framework · GitHub
要想解决需要自己添加心跳机制进行处理。
后续计划将消息中心独立一个单独服务出去,同时添加keepalive的心跳机制。