生产环境CPU飙升排查

原创已于 2022-03-02 23:37:26 修改 · 1.1k 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#java #p2p #开发语言

于 2022-02-16 23:55:02 首次发布

JAVA 专栏收录该内容

2 篇文章

订阅专栏

本文讲述了在生产环境中遇到CPU使用率突然升高的问题，通过jps、jstack、jstat和jmap等工具进行诊断，发现是由于大数据量Excel导出导致的内存溢出，频繁触发FULL GC。通过对堆栈日志的分析，确认了问题源并提出了优化方案，包括调整内存分配和考虑使用CSV格式替代Excel来减少内存占用。

最近公司生产环境偶尔会出现CPU暴涨导致大量请求失效。但是从打印的日志又没发现有什么异常信息，导致排查问题无从下手。

下午收到反馈的时候，CPU还在高位，看到现象重现，赶紧对其进行分析。

首先通过jps -l 命令查看当前JAVA项目进程ID。然后根据jstack -l pid > stack.txt以及 jstat -gc pid > gc.txt命令导出线程和GC相关信息。然后再根据jmap -dump:format=b,file=heap.dump pid 命令导出相关的堆栈信息，这个命令导出的文件比较大，会耗费较多的时间。

导出相关日志后，从stack.txt日志上看，没有死锁，但是存在GC线程，暂未看出具体问题。然后从gc.txt上看到Eden区和老年区内存使用占比非常高，而且FULL GC次数很多，怀疑是FULL GC 导致CPU使用飙升。

公司网络较慢，经过20分钟，终于将堆栈日志heap.dump从云平台上拉取出来。通过visualvm软件打开，可看到当前堆栈中存在大量HSSFCell对象，这个对象是导出生成EXCEL的，由此怀疑是导出大数据量数据，导致生成了大量的临时对象，将新生代和老年代空间都占满了，从而引起FULL GC，而FULL GC又无法释放出足够内存，导致多次FULL GC 从而导致CPU持续飙升导致大量请求处理失败。