同学们,你们是否会经常碰到一个问题。程序初上线时,各方面都挺好,跑的也很快。但是过一段时间,产品经理就会来找你,某某功能不能正常运行了。你的神经立马紧绷:不会是程序出问题了吧,然后你会悄悄的查询该项目是否在正常运行。
当你一顿操作猛如虎后,会发现该进程并没有被杀死。然后你接着会查询此相关模块的日志,果然日志打印几乎停顿,好几十秒输出一次。此时你会如何排查呢?你会想到,是不是程序阻塞?内存溢出?cpu过高?
程序阻塞排查:
查看数据库中有没有sql被死锁,可以通过show full processlist命令检查,是否有状态为locked的。也可以查询是否有时间很长们还存在的进程,找到后。先去查看sql写的是不是有问题(这个不在此赘述),其次就是直接把进程干掉。
内存溢出排查:
查找程序日志中有没有oom这类的字眼,如果是这个异常,需要自查写的代码是否有需要调整的地方。
最后排查cpu,当你输入top -c后,展现在你面前的就是cpu过高了,达到1700%之高(我是32核),此时占用了一半的cpu了,这确实会使项目打印日志缓慢。然后开始一步一步排查,此处省略排查步骤。。。。一万次思索。。。
最后通过堆栈找到,是因为fgc导致的。找到了就好办了。通过jmap打印dump文件,通过jvm工具,我用的是jprofiler。查询到有一个list占用了60%的内存,导致垃圾回收器在频繁的回收,但是却回收很少的空间,垃圾回收器有新生代和老年代(在这里不详细讲解,后期有机会聊这个gc)。查看代码确实要创建很多的list,但是确实需要用到。因此代码不作调整,调整了jvm的gc参数,使用jdk9默认的g1垃圾回收器,效果显著。