生产环境服务CPU飙升问题分析

置顶吃猫的大鱼

已于 2023-03-14 14:56:31 修改

阅读量1.2k

点赞数 6

分类专栏： OOM 面试文章标签：内存泄漏 jvm linux

于 2021-05-11 13:23:09 首次发布

本文链接：https://blog.csdn.net/qq_32979219/article/details/116571935

版权

面试同时被 2 个专栏收录

28 篇文章 0 订阅

订阅专栏

OOM

1 篇文章 0 订阅

订阅专栏

文章目录

前言
一、事情起因
二、分析stack日志
三、dump文件分析
总结

前言

最近遇到了一次生产环境上服务CPU高的问题，本篇会记录问题处理全过程，并分享给大家，希望能够帮助到遇到同样问题的人。

一、事情起因

运营在群里面反馈系统（3年前老项目）速度很慢，然后自己也去试了一下发现所有页面都数据加载都很慢，然后服务器也报警了，这个服务CPU彪升到100%了，初步推测是内存泄漏了。

二、分析stack日志

1.列出当前进程的运行列表

指令： top -c
在这里插入图片描述
如上图 PID=21398的进程CPU已经超过100%

2.打印进程的GC情况

指令：jstat -gcutil 21398 1000 1000
在这里插入图片描述

幸存者空间异常？
S0 0.00 S1 100.00 ？幸存者区的空间是不是很奇怪，我第一时间也没有看懂。
在这里插入图片描述
仔细看了一下，JVM参数指定的是G1GC，因为G1的堆布局跟HotSpot VM里其它GC不一样——它只有一组逻辑上的survivor space，而不像其它HotSpot GC一样有两段明确、固定的地址空间用作survivor space——所以用jstat看G1的话肯定是survivor space 0显示0%，survivor space 1显示100%，这个是正常的。

老年代空间占用率超过 82%，老年代空间占用率高一般都是代码写的有问题，这个和之前猜测的内存泄漏问题可以对上（加上重启服务止血后所有功能都正常了，锁定是内存泄漏问题）。

方法区空间占用率超过94.66，方法区存储的是类的加载信息、常量、静态变量等，按照经验来说方法区内存溢出都是新导入的框架不兼容等问题导致的，排查了一下没有引入奇怪的框架，之后分析重点放在常量和静态变量这块。

3.列出进程下消耗最高的线程

指令：top -Hp 21398
在这里插入图片描述
如上图 PID=21771的线程CPU已经 99.9%
21771是十进制的数，快照中线程是十六进制，将其转为十六进制：550b

4.导出进程的快照

指令： jstack -l 21398 > ./21398.stack
备注： stack文件很小

5.查看线程异常信息

指令：jstack -l 21398 > ./21398.stack

在这里插入图片描述
从stack日志中也只能看出来好多线程都在等待中且有死锁问题，如果有经验的就能从大量线程time_waiting就能猜到是tcp连接池有问题，在项目中全局搜索了一下发现根本就没有配置线程池，那么具体是什么问题还得分析dump文件。

6.导出进程的dump文件

jmap -dump:format=b,file=21398.dmp 21398
备注：导出的是堆内存的dump文件体积和堆一致，体积大，速度非常慢，有可能会影响到服务。
jmap -dump:live,format=b,file=21398.hprof 21398
备注：导出的是堆内存中存活的dump文件体积要小于堆（推荐），hprof是给MAT分析用的。在这里插入图片描述

三、dump文件分析

1.MAT工具分析报告

在这里插入图片描述

2.Histogram大对象分析

在这里插入图片描述
Histogram：

Class Name ：类名称，java类名；
Objects ：类的对象的数量；
Shallow Heap ：一个对象内存的消耗大小，不包含对其他对象的引用；
Retained Heap ：可以被GC回收到内存的总和；

从以上分析结果来看，可以得出结论：

Retained Heap没有可被GC回收的对象，实锤了是内存泄漏问题；
内存泄漏的’凶手‘就是 byte[]对象，大小已经超过1G了，重点分析；
char[] 这个也存在隐患，需要具体分析。

byte[]内容分析：
在这里插入图片描述
byte[]中存放都是http请求头信息，实际这些请求头信息拷贝出来也就几百B，为什么这里所有对象都整整齐齐全部占用了约10M，猜测是某个地方配置问题，然后先检查了一下配置文件，果然发现了“凶手”，和byte[]的大小一致，真凶找到了如下：
在这里插入图片描述
这块去了解了一下应该算spring boot的一个bug，你配置这个参数后它会帮你默认构造你传入的size大小的数组，请求量较大就直接OOM。

然后我追溯了一下git历史提交记录发现是第一次搭建项目就提交了这个配置（很明显是抄其他项目的配置），埋下了一个大坑，可见项目脚手架何其重要。
解决方案就是去掉这个配置即可。

char[]内容分析：
在这里插入图片描述
这问题就很明显了是日志问题，仔细核对了一下服务日志，发现有重复打日志（用aop打日志，在controller层中也打日志了），每天日志量大概在2.5G左右（服务业务并不复杂，日志量明显不对），还发现日志打印都是用字符串拼接，根据以上分析日志改造如下：

日志输出由字符串拼接改为占位符；
private static final Logger logger = LoggerFactory.getLogger(xxx.class); 改为用注解方式。

以上问题基本上分析完了。

3.优化后结果

经过持续观察将近半个月，CPU高的问题已经彻底解决了。

总结

实际中遇到的CPU飙高的问题往往都是需要从多个维度分析，远比一些写demo然后定位内存溢出问题（可以直接定位到错误代码）要复杂得多，最后推荐一下MAT工具，真的非常好用。

吃猫的大鱼

关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
7
评论
生产环境服务CPU飙升问题分析

提示：文章写完后，目录可以自动生成，如何生成可参考右边的帮助文档文章目录前言一、pandas是什么？二、使用步骤1.引入库2.读入数据总结前言提示：这里可以添加本文要记录的大概内容：例如：随着人工智能的不断发展，机器学习这门技术也越来越重要，很多人都开启了学习机器学习，本文就介绍了机器学习的基础内容。提示：以下是本篇文章正文内容，下面案例可供参考一、pandas是什么？示例：pandas 是基于NumPy 的一种工具，该工具是为了解决数据分析任务而创建的。二、使用步骤1.引入库代码
复制链接

扫一扫