记一次confluence故障的RCA
Confluence故障RCA(Root Cause Analysis)
本文记录我在去年给客户做的一次confluence故障原因排查,也希望借此机会与使用confluence的朋友交流一下。
本文内容均已脱敏。
问题
用户的监控系统报警confluence无法访问,主页无法打开。排查过程中我们工程师重启confluence(stop-confluence.sh
/start-confluence.sh
)并发现进程和端口并未能恢复正常。
问题原因(Root Cause)
故障触发原因
检查日志文件catalina.out,在07-Jul-2020 15:10:49.691处开始可见内存溢出(OOM),WebSocket Connection Manager因此停止,同时在下方日志出现“Exception in thread “synchronyProxyFilter-74905” java.lang.OutOfMemoryError: Java heap space”等多项Exception,由此判断提供8091端口的WebSocket服务的组件出现OOM。
核实8091端口对应的服务进程
根据上面得出的结果,我们判断需要恢复服务,就需要使8091端口的WebS