本文记录一次线上oom问题的定位过程以及如何解决问题的思路。
很多java的线上问题都可以用类似思路去定位问题以及解决问题,不管是我们自己写的业务bug导致的 或者是框架层的bug. 希望本文可以在排查java问题给到大家一些思路上的帮助。
问题现象
某次周五快要下班的时候,udb登录服务突然有大波告警,赶紧登上机器排查原因,回家吃晚饭的时间又要推迟咯。
一会就有用户反馈上来说 登录不上。二话不说,先重启机器,保留一台现场留作分析。事实上,重启之后,过段时间又有告警上来了。
原因定位
首先使用top命令,查看进程状态,发现app_lgn服务的进程占用cpu异常;
然后查看java的垃圾回收情况
jstat -gcutil pid 1000 100
发现进程确实在频繁地进行着FullGC,结合cmdb上的机器监控以及进程的gc日志,可以确定java 堆内存中因为部分对象释放不了,进入老年代,老年代不断增大,触发FullGC,FullGC的时候,会导致cpu飙升。
使用jmap确认java堆内存的使用情况:
jmap -heap 56608
<