记一次生产环境CPU100%排查和性能优化

最新推荐文章于 2023-05-07 14:44:05 发布

Mieandu

最新推荐文章于 2023-05-07 14:44:05 发布

阅读量917

点赞数

分类专栏：生产环境问题记录文章标签： java 性能优化生产环境 Cpu100% GC异常

本文链接：https://blog.csdn.net/Mieandu/article/details/89622542

版权

生产环境问题记录专栏收录该内容

1 篇文章 0 订阅

订阅专栏

前几天中午快吃饭的时候，运营突然和我们说后台管理系统瘫痪了（/(ㄒoㄒ)/~~这还让不让人吃饭了）。不过还好只是后管，不然压力陡增啊。赶紧上服务器瞅一下是怎么回事，发现CPU满载了，这是什么情况，后台一般没什么大计算量的工作，怎么会突然满载了呢。

运行环境

操作系统：Centos 6.8
应用服务：Tomcat8
语言：Java

问题排查

赶紧把CPU满载排查流程走一遍
1.使用jstack > t.log 导出当前的线程堆栈
2.先使用top命令查找当前消耗CPU最高的进程pid
3.top -pH 找到当前进程下正在消耗CPU的线程Id.
4.将线程ID转换成16进制ID，并在线程堆栈里面找到对应的线程
发现都是gc线程，gc异常了？赶紧用jstat -gcutil 1000 5 看了下当前垃圾回收情况，发现年轻代和老年代都满了，一直在进行Full GC，导致CPU满载，既然是垃圾回收的问题，先重启服务器，将服务恢复再说，发现重启后服务恢复了正常。

猜想

到底是什么原因导致垃圾回收异常呢，内存泄漏了吗？应该不会，最近没有进行后管的迭代，那不是内存泄漏，立马猜想可能是大对象导致的，后台有可能出现大对象的情况只有订单导出了。赶紧问了下运营，是不是谁在导出订单，问了果然是的。但是问题来了，之前订单导出都没有问题，为什么这次导出订单会导致老年代占满而且Full GC回收不了呢。想到后台订单导出比较耗时，且导出按钮没有等待服务器响应之后才恢复的机制，猜想是不是运营等待过程中点了多次导出导致的呢。

验证

想到这里，赶紧在测试服务器上进行验证，发现完全符合猜想。

解决问题

既然是因为多次导出导致的问题，那我们只要将后台的导出任务改成串行不就可以了吗，而且业务上也不受影响，于是加上了分布式锁，问题解决。

进一步优化

1.导出代码性能优化

平常运营老抱怨导出订单性能差，单量大就要等很长时间，而且不知道要多久才能导出来，前端也有等待超时时间。索性这一次整体优化一遍，看了下代码，订单从订单表查出来之后循环遍历对每条记录做做大量的信息补充，平均每条耗时20-50ms左右。我擦，这怎么可能快，10000条不是就3，4分钟过去了吗。因此将信息补充过程改成了并行处理。在测试服务器上测了一下瞬间快了将近10倍，瞬间感觉身心愉悦