JAVA 线上故障排查完整套路

YY小记

已于 2023-02-28 10:55:33 修改

阅读量756

点赞数

分类专栏：堆内存分析文章标签： java

于 2020-05-25 11:41:10 首次发布

本文链接：https://blog.csdn.net/myy1066883508/article/details/106328481

版权

本文详细介绍了JAVA线上故障排查的完整流程，包括CPU、磁盘、内存和网络问题的排查方法。针对CPU异常，文章推荐使用jstack分析堆栈信息；对于频繁GC，利用jstat观察分代变化；上下文切换可通过vmstat命令监控；磁盘问题用df和iostat检查；内存问题涉及OOM和堆外内存，借助free、jmap和jprofiler等工具。网络问题的排查涉及超时、TCP队列溢出、RST异常等，通过netstat、ss和tcpdump等工具进行诊断。

摘要由CSDN通过智能技术生成

线上故障主要会包括 CPU、磁盘、内存以及网络问题，而大多数故障可能会包含不止一个层面的问题，所以进行排查时候尽量四个方面依次排查一遍。同时例如 jstack、jmap 等工具也是不囿于一个方面的问题的，基本上出问题就是 df、free、top 三连，然后依次 jstack、jmap 伺候，具体问题具体分析即可。

CPU
一般来讲我们首先会排查 CPU 方面的问题。CPU 异常往往还是比较好定位的。原因包括业务逻辑问题(死循环)、频繁 gc 以及上下文切换过多。而最常见的往往是业务逻辑(或者框架逻辑)导致的，可以使用 jstack 来分析对应的堆栈情况。
使用 jstack 分析 CPU 问题
我们先用 ps 命令找到对应进程的 pid(如果你有好几个目标进程，可以先用 top 看一下哪个占用比较高)。
接着用top -H -p pid来找到 CPU 使用率比较高的一些线程、在容器里面直接htop来代替top命令，因为容器里面top 没有-H 参数
在这里插入图片描述
然后将占用最高的 pid 转换为 16 进制printf ‘%x\n’ pid得到 nid

接着直接在 jstack 中找到相应的堆栈信息jstack pid |grep ‘nid’ -C5 –color

可以看到我们已经找到了 nid 为 0x42 的堆栈信息，接着只要仔细分析一番即可。
当然更常见的是我们对整个 jstack 文件进行分析，通常我们会比较关注 WAITING 和 TIMED_WAITING 的部分，BLOCKED 就不用说了。我们可以使用命令cat jstack.log | grep “java.lang.Thread.State” | sort -nr | uniq -c来对 jstack 的状态有一个整体的把握，如果 WAITING 之类的特别多，那么多半是有问题啦。
在这里插入图片描述
频繁 gc
当然我们还是会使用 jstack 来分析问题，但有时候我们可以先确定下 gc 是不是太频繁，使用jstat -gc pid 1000命令来对 gc 分代变化情况进行观察，1000 表示采样间隔(ms)，S0C/S1C、S0U/S1U、EC/EU、OC/OU、MC/MU 分别代表两个 Survivor 区、Eden 区、老年代、元数据区的容量和使用量。YGC/YGT、FGC/FGCT、GCT 则代表 YoungGc、FullGc 的耗时和次数以及总耗时。如果看到 gc 比较频繁，再针对 gc 方面做进一步分析，具体可以参考一下 gc 章节的描述。
在这里插入图片描述
上下文切换
针对频繁上下文问题，我们可以使用vmstat命令来进行查看

cs(context switch)一列则代表了上下文切换的次数。

如果我们希望对特定的 pid 进行监控那么可以使用 pidstat -w pid命令，cswch 和 nvcswch 表示自愿及非自愿切换。
在这里插入图片描述
磁盘
磁盘问题和 CPU 一样是属于比较基础的。首先是磁盘空间方面，我们直接使用df -hl来查看文件系统状态

更多时候，磁盘问题还是性能上的问题。我们可以通过iostat -d -k -x来进行分析

最后一列%util可以看到每块磁盘写入的程度，而rrqpm/s以及wrqm/s分别表示读写速度，一般就能帮助定位到具体哪块磁盘出现问题了。