java内存、cpu异常

小英雄Dui

已于 2023-03-04 13:37:38 修改

阅读量256

点赞数

分类专栏：教程文章标签： java netty

于 2021-07-01 11:20:29 首次发布

本文链接：https://blog.csdn.net/ujsDui/article/details/118382364

版权

17 篇文章 2 订阅

订阅专栏

现象：客户环境的java进程cpu偶发跳到100%，有时候持续时长一分钟。问题报告是在最后一个工作日周五，需要在周一给客户结论，周末远程时没有复现过。因此，来不及使用jstack等工具分析，信息非常有限。

分析过程：

当时刚参加工作没多久，第一次解这类问题既兴奋又痛苦。手上cpu100%时的资料有，cpu100%时的top录屏让你知道是哪个进程占用了cpu，系统上各个服务进程的日志。
埋头看日志，看了一天都没有找到关键信息，因为日志上的报错复现不了cpu100%。时间：周六
上级和其它服务进程日志上有打印错误的同事参与进来帮忙定位。我因为日志排查不出原因，安排去看top录屏提供异常的时间点。
盯着top录屏我发现了一些小规律，出现异常时wa值也是跟着高的。然后疯狂找了一波资料，向上级反馈wa偏高这个线索。
之后运维提供dd命令帮我们在客户环境测试了一把，复现了周五工作日时cpu异常（dd和wa的关系参考该文 http://veithen.io/2013/11/18/iowait-linux.html），运维同学帮忙测试了客户的磁盘读写能力和我们的测试环境相比低下了很多。时间：周日

总结：当时通过复现现象给了客户一个解释。后来了解到客户是升级后才出现这个问题，客户最后回滚继续用旧版本。再后来，笔者发现为什么升级后会出现磁盘问题，因为我们中间某个版本加了个需求会导致磁盘io翻倍。

经验：解决问题时，要注重了解问题的背景。是稳定环境上突然出现的问题，还是附加了什么操作才出了问题，可以少走弯路

实际遇到内存泄漏的场景千奇百怪，下面是一些配置建议：

增加堆外内存使用量的日志打印。在流量监控等监测日志，或者请求入口处增加堆外内存使用量的日志。内存出现异常时，直观的帮助判断是日积月累，还是突然扩张的。个人依托监控日志，发现线上环境是内存突然涨上去的，反推时间点附近的用户操作解决过问题。
测试环境建议netty泄漏检测等级提到最高，还有netty参数限制最大堆外内存到96m，netty在小内存的限制下不会使用池化内存，1的监控将变得精确

关注