记一次CPU飙升问题排查

最新推荐文章于 2024-09-04 15:29:36 发布

*郑*

最新推荐文章于 2024-09-04 15:29:36 发布

阅读量218

点赞数 3

分类专栏： java 文章标签： java

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42202992/article/details/133698556

版权

java 专栏收录该内容

66 篇文章 0 订阅

订阅专栏

记一次CPU飙升问题排查

线上容器突然cpu飙升，也是第一次排查这种问题所以记录一下~
首先问题是这样的，周五正在写文档，突然收到了线上报警，发现cpu占用达到了90多，上平台监控系统查看容器，在jvm监控中发现有一个pod在两个小时内产生了61次youngGc一次fullGc，这个问题特别严重且少见，由于我之前也没有排查过此类问题，所以也是百度，但整个过程也有一些自己的思考，所以跟大家分享一下

场景

1.正常的jvm监控曲线图

在这里插入图片描述

2.产生问题的jvm监控曲线图

在这里插入图片描述
可以看的出来，正常情况下该系统很少gc(具体看业务系统使用情况、jvm内存分配)，但是在图二中出现了大量异常的gc情况甚至触发了fullGc，所以我当时立马进行了分析。

分析

首先异常gc的情况只出现在一个pod上（系统有多个pod）,在监控系统找到对应的pod，进入pod内部查看问题原因

1. 进入pod之后，输入top查看各linux进程对系统资源的使用情况(因为这是事后补稿，资源使用不高，大家看步骤即可)

在这里插入图片描述

2. 分析资源使用情况在当时的情况下.

在这里插入图片描述
当时我的pid为1的进程cpu上到了130（多核）那我认定就是java应用出问题了，control+c退出继续往下走

3. 输入top -H -p pid 通过此命令可以查看实际占用CPU最高的的线程的id，pid为刚才资源使用高的pid号

在这里插入图片描述

4. 出现具体线程的资源使用情况，表格里的pid代表线程的id，我们称他为tid

在这里插入图片描述

5. 我记得当时的tip为746（上述图片只是我给大家重复步骤），使用命令printf “%x\n” 746，将线程tid转换为16进制

在这里插入图片描述

6. 输入jstack pid | grep 2ea >gc.stack

在这里插入图片描述
jstack是jdk给提供的监控调优小工具之一，jstack会生成JVM当前时刻的线程快照，然后我们可以通过它查看某个Java进程内的线程堆栈信息，之后我们把堆栈信息通过管道收集2ea线程的信息，然后将信息生成为gc.stack文件

7. 当时我先cat gc.stack 发现数据有点多在容器里看不方便，于是我下载到本地浏览，因为公司对各个机器的访问做了限制，我只能用跳板机先找到一台没用的机器a，把文件下载到a然后我再把a里的文件下载到本地（本地访问跳板机OK），先输入python -m SimpleHTTPServer 8080，linux自带python，这个是开启一个简单http服务供外界访问，

在这里插入图片描述
然后登录跳板机，使用curl下载curl -o http://ip地址/gcInfo.stack 为方便演示

8. 把文件下载到了本地，打开查看编辑器搜索2ea，找到nid为2ea的堆栈信息，

在这里插入图片描述
之后找到对应的impl根据行数分析程序

9. 发现是在文件异步导出excel的时候，导出接口使用了公共列表查询接口，列表接口查询数据最多为分页200一批，而导出数据量每个人的权限几万到十几万不等

在这里插入图片描述
并且该判断方法使用了嵌套循环里判断，且结合业务很容易get不到value，guawa下的newArrayList就是返回一个newArrayList（好像不用说这么细 (；一_一），在整个方法结束之前，产生的lists生命周期还在所以发生多次gc触发重启之后还影响到了别的pod。然后对代码进行了fix，问题解决

关注

3
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
记一次CPU飙升问题排查

记一次CPU飙升问题排查
复制链接

扫一扫

专栏目录

*郑* CSDN认证博客专家 CSDN认证企业博客

码龄6年

192: 原创

103万+: 周排名

7万+: 总排名

13万+: 访问

: 等级

2456: 积分

771: 粉丝

495: 获赞

20: 评论

487: 收藏

私信

关注

热门文章

分类专栏

java 66篇
其他 12篇
前端 68篇
Git 5篇
GitLab 13篇
linux 13篇
数据库 2篇
node 6篇
Mysql 8篇
设计模式 10篇
面试 16篇

最新评论

谷歌浏览器禁用自动更新
Wind_Haolin: 开了梯子又自动更新了怎么办？
Vue3+Element-Plus中ELMessage样式丢失处理
孤尪人: 已解决，感谢大佬，按需引入ElMessage居然可以全局直接拿着用，外部js页面也不用引入确实想不到
windows系统恢复hosts原文件
xyQQD: 我使用命令后弹出“所在位置行:1 字符: 4 + for /f %P in ('dir %windir%\WinSxS\hosts /b /s') do copy %P %windir%\ ... + ~ 关键字“for”后面缺少左“(”。所在位置行:1 字符: 91 + ... nSxS\hosts /b /s') do copy %P %windir%\System32\drivers\etc & echo %P ... + ~ 不允许使用与号(&)。& 运算符是为将来使用而保留的；请用双引号将与号引起来("&")，以将其作为字符串的一部分传递。所在位置行:1 字符: 101 + ... /b /s') do copy %P %windir%\System32\drivers\etc & echo %P & Notepad ... + ~ 不允许使用与号(&)。& 运算符是为将来使用而保留的；请用双引号将与号引起来("&")，以将其作为字符串的一部分传递。 + CategoryInfo : ParserError: (:) [], ParentContainsErrorRecordException + FullyQualifiedErrorId : MissingOpenParenthesisAfterKeyword”
idea2023版使用废弃类没有删除线处理方法
CSDN-Ada助手: 不知道 Java 技能树是否可以帮到你：https://edu.csdn.net/skill/java?utm_source=AI_act_java
Vue3动态CSS
白话机器学习: 博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，期待博主持续带来更多好文。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。