提示:文章先作为初版,等后续时间充足后,补充更深的内容
如何排查JVM问题
一、理论
排查JVM问题可以按照以下步骤进行:
收集问题相关信息:记录问题发生的时间、频率和具体的错误信息或异常堆栈跟踪。**获取应用程序的日志文件、JVM的日志文件、线程转储(Thread Dump)、内存转储(Heap Dump)**等相关信息。
检查系统资源:查看系统的CPU使用率、内存使用情况、磁盘IO等系统资源是否正常。如果系统资源过度使用,可能导致JVM性能问题。
分析JVM日志:查看JVM的日志文件,如GC日志和垃圾回收相关的信息,了解GC情况、内存分配情况和回收频率等。根据日志分析是否存在内存泄漏或内存溢出等问题。
线程转储(Thread Dump)分析:获取应用程序的线程转储,了解线程的状态、堆栈信息和可能的死锁情况。通过分析线程转储,可以确定是否存在线程阻塞或死锁导致的性能问题。
内存转储(Heap Dump)分析:获取应用程序的内存转储,了解内存使用情况、对象占用内存较多的情况和可能的内存泄漏。通过分析内存转储,可以确定是否存在内存泄漏问题或者对象过多导致的性能问题。
使用性能分析工具:使用性能分析工具**(如VisualVM、JProfiler等)**对应用程序进行性能分析。通过查看方法执行时间、方法调用关系、CPU消耗较高的代码等信息,找出性能瓶颈所在。
检查代码:审查应用程序的代码,查找可能存在的潜在问题,如死循环、不当的线程同步、资源未释放等。
进行实验和压测:重现问题场景,并进行压力测试,观察系统在不同负载下的行为,找出系统的极限和可能存在的问题。
需要注意的是,JVM问题的排查是一个综合性的过程,需要结合多种信息和工具进行分析。对于复杂的问题,可能需要进行多轮的排查和调试才能找到准确的原因和解决方案。
二、操作
对于还在正常运行的系统:
- 可以使用jmap来查看JVM中各个区域的使用情况
- 可以通过jstack来查看线程的运行情况,比如哪些线程阻塞、是否出现了死锁
- 可以通过jstat命令来查看垃圾回收的情况,特别是fullgc,如果发现fullgc比较频繁,那么就得进行调优了
- 通过各个命令的结果,或者jvisualvm等工具来进行分析
- 首先,初步猜测频繁发送fullgc的原因,如果频繁发生fulac但是又一直没有出现内存溢出,那么表示ftulc实际上是回收了很多对象了,所以这些对象最好能在young.过程中就直接回收掉,避免这些对象进入到老年代,对于这种情况,就要考虑这些存活时间不长的对象是不是比较大,导致年轻代放不下,直接进入到了老年代,尝试加大年轻代的大小,如果改完之后,fullgc减少,则证明修改有效
- 同时,还可以找到占用CPU最多的线程,定位到具体的落法,优化这个方法的执行,看是否能避免某些对象的创建,从而节省内存
对于
已经发生了OOM的系统:
1.一般生产系统中都会设置当系统发生了OOM时,生成当时的dump文件(-X+HeapDumpOnOutOfMemoryEror -XXiHeapDumpPath=/usr/local/base)
2.我们可以利用jsisualvm等工具来分析dump文件
3.根据dump文件找到异常的实例对象,和异常的线程(占用CPU高),定位到具体的代码
4.然后再进行详细的分析和调试
总之,调优不是一蹴而就的,需要分析、推理、实践、总结、再分析,最终定位到具体的问题