又再次出现了由于网络连接问题导致的springboot应用假死。先记录几个命令。
查看网络连接情况
netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
按本地地址统计
netstat -tnp | grep CLOSE_WAIT | awk '{print $4}' | sort | uniq -c | sort -nk1
按远端地址统计
netstat -tnp | grep CLOSE_WAIT | awk '{print $5}' | sort | uniq -c | sort -nk1
过滤指定地址连接
netstat -tnp | grep CLOSE_WAIT | grep 127.0.0.1:8080 | awk '{print $5}' | cut -d':' -f1 | sort | uniq -c | sort -nk1
记录下问题
是由于使用了spring的sse做前后台通讯的消息中心导致的。
前端页面非正常关闭,例如直接关闭浏览器页面。会导致无法执行关闭连接代码。导致客户端未返回关闭的ack,从而导致了大量CLOSE_WAIT的连接,把后台web容器的网络连接数占满了,所以新请求进不去,从而出现故障。
这个问题本身是Spring的SSE组件的bug。记录如下:
首页打开浏览器控制台,执行 s = new EventSource('/api/portal/basiccenter/msg/center/sse/connect?_=1709697522068'); setTimeout(() => s.close(), 1000)
每