项目是一个新闻类的网站,上线也有一段时间了。今天点开网站,页面的加载速度总感觉有点卡顿感,于是乎打开了云控制台,查看了服务器最近的状态。
果不其然,cpu使用率存在异常,内存占用并不太高。
执行top命令,java进程cpu占用90%
# top
使用arthas查看了dashboard
*下载arthas 运行arthas 选择指定的java项目进程
# curl -O https://arthas.aliyun.com/arthas-boot.jar
# java -jar arthas-boot.jar
* 执行dashboard命令
# dashboard
两个GC进程居高不下,GC次数高达百万次,不用想,代码肯定出现了异常。。。。
执行dump ,在/tmp目录下 生产heapdump文件
# heapdump
首先准备使用 gc easy 网站的在线分析的,因为dump文件过大,无法上传,所以改用eclipse的MAT分析工具在服务器上直接分析了。
1.下载linux版本的mat
# wget http://eclipse.stu.edu.tw/mat/1.9.0/rcp/MemoryAnalyzer-1.9.0.20190605-linux.gtk.x86_64.zip
2、解压zip包
# unzip MemoryAnalyzer-1.9.0.20190605-linux.gtk.x86_64.zip
3、修改linux mat的堆内存大小(看自己下载的堆的大小,默认mat的堆支持1g)
# vi MemoryAnalyzer.ini
由于我们的堆内存过大,所以设置mat的最大堆为10g
-startup
plugins/org.eclipse.equinox.launcher_1.5.0.v20180512-1130.jar
--launcher.library
plugins/org.eclipse.equinox.launcher.gtk.linux.x86_64_1.1.700.v20180518-1200
-vmargs
-Xmx10240m
4、执行分析脚本
# ./ParseHeapDump.sh [hprof文件] org.eclipse.mat.api:suspects org.eclipse.mat.api:overview org.eclipse.mat.api:top_components
在hprof文件同目录下,会生成相关对应的分析 .zip 文件
打开zip文件运行index.html网页文件,即可看到详细的分析报告。
根据分析饼图,很容易看到大量的TaskThread进程,确定是定时任务异常执行导致。
找到项目中的定时任务代码,锁定异常代码块,修改代码,更新至线上即可。