一, 问题的表现:
我们的系统属于爬虫应用,发取各个网站的数据。上周三的下午,一次上线重启后,大约过了大半天时间,突然收到CPU负载过高的邮件,赶紧登陆堡垒机进行查看。CPU 占用率达到 300%多,系统响应速度极为缓慢。查看GC 日志,发现 一分钟内有几十次以上的FULL GC , 平均每次耗时 2,3秒钟,而且老年代一直是占满的状态,并不能进行有效的回收 。
二 ,排查方式:
jstack 打印线程栈信息, 发现没有异常的线程信息,没有发现死锁。
dump 堆内存,4 个G ,文件巨大。利用 MAT 打开进行分析,发现有两块可疑的发生内存泄漏的对象,一个是tomcat的守护线程,还有一部分是 系统内的线程池中的线程,这两部分占据了堆内存80%以上的空间。(图)