7000+字，30+张图！Java线上故障排查思路全部总结在这里了

最新推荐文章于 2024-07-21 09:23:23 发布

美得让人心动

最新推荐文章于 2024-07-21 09:23:23 发布

阅读量339

点赞数

文章标签： java 概率论算法

本文链接：https://blog.csdn.net/gu131007416553/article/details/120742858

版权

本文详细总结了Java线上故障排查的全面思路，涵盖CPU、磁盘、内存和网络四个层面。通过工具如jstack、jmap、iostat等，分析CPU的死循环、频繁GC和上下文切换，磁盘的I/O性能，内存的OOM和堆外内存问题，以及网络超时、TCP队列溢出等。并提供了具体的排查方法和工具使用技巧，帮助开发者定位和解决线上问题。

摘要由CSDN通过智能技术生成

线上故障主要会包括 cpu、磁盘、内存以及网络问题，而大多数故障可能会包含不止一个层面的问题，所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack 、jmap 等工具也是不囿于一个方面的问题的，基本上出问题就是 df、free、top 三连，然后依次 jstack、jmap 伺候，具体问题具体分析即可。

CPU

一般来讲我们首先会排查cpu方面的问题。 cpu异常往往还是比较好定位的。原因包括业务逻辑问题(死循环)、频繁gc以及上下文切换过多。而最常见的往往是业务逻辑(或者框架逻辑)导致的，可以使用jstack来分析对应的堆栈情况。

使用jstack分析cpu问题

我们先用ps命令找到对应进程的 pid(如果你有好几个目标进程，可以先用top看一下哪个占用比较高)。接着用top -H -p pid来找到cpu使用率比较高的一些线程

然后将占用最高的pid转换为16进制printf '%x\n' pid得到nid

接着直接在jstack中找到相应的堆栈信息jstack pid |grep 'nid' -C5 –color

可以看到我们已经找到了nid为0x42的堆栈信息，接着只要仔细分析一番即可。

当然更常见的是我们对整个jstack文件进行分析，通常我们会比较关注WAITING和TIMED_WAITING的部分，BLOCKED就不用说了。我们可以使用命令cat jstack.log | grep "java.lang.Thread.State" | sort -nr | uniq -c来对jstack的状态有一个整体的把握，如果WAITING 之类的特别多，那么多半是有问题啦。

频繁gc

当然我们还是会使用jstack来分析问题，但有时候我们可以先确定下gc是不是太频繁，使用jstat -gc pid 1000命令来对gc分代变化情况进行观察，1000表示采样间隔(ms)，S0C/S1C、S0U/S1U、EC/EU、OC/OU、MC/MU分别代表两个Survivor区、Eden区、老年代、元数据区的容量和使用量。YGC/YGT、FGC/FGCT、GCT则代表YoungGc、FullGc的耗时和次数以及总耗时。如果看到gc比较频繁，再针对gc方面做进一步分析。