Java线上问题排查以及工具使用方法，提高bug修复效率！

最新推荐文章于 2022-06-15 17:02:01 发布

Hi丶ImViper

最新推荐文章于 2022-06-15 17:02:01 发布

阅读量453

点赞数

分类专栏： Java 文章标签： java 面试编程语言

本文链接：https://blog.csdn.net/weixin_43314519/article/details/107719640

版权

前言

本文总结了一些常见的线上应急现象和对应排查步骤和工具。分享的主要目的是想让对线上问题接触少的同学有个预先认知，免得在遇到实际问题时手忙脚乱。毕竟作者自己也是从手忙脚乱时走过来的。

只不过这里先提示一下。在线上应急过程中要记住，只有一个总体目标：尽快恢复服务，消除影响。不管处于应急的哪个阶段，我们首先必须想到的是恢复问题，恢复问题不一定能够定位问题，也不一定有完美的解决方案，也许是通过经验判断，也许是预设开关等，但都可能让我们达到快速恢复的目的，然后保留部分现场，再去定位问题、解决问题和复盘。

在大多数情况下，我们都是先优先恢复服务，保留下当时的异常信息（内存dump、线程dump、gc log等等，在紧急情况下甚至可以不用保留，等到事后去复现），等到服务正常，再去复盘问题。

好，现在让我们进入正题吧。

常见现象：CPU 利用率高/飙升

场景预设：

监控系统突然告警，提示服务器负载异常。

预先说明：

CPU飙升只是一种现象，其中具体的问题可能有很多种，这里只是借这个现象切入。

注：CPU使用率是衡量系统繁忙程度的重要指标。但是CPU使用率的安全阈值是相对的，取决于你的系统的IO密集型还是计算密集型。一般计算密集型应用CPU使用率偏高load偏低，IO密集型相反。

常见原因：

频繁 gc
死循环、线程阻塞、io wait…etc

模拟

这里为了演示，用一个最简单的死循环来模拟CPU飙升的场景，下面是模拟代码，

在一个最简单的SpringBoot Web 项目中增加CpuReaper这个类，

/** * 模拟 cpu 飙升场景 * @author Richard_yyf */@Componentpublic class CpuReaper {
   
    @PostConstruct    public void cpuReaper() {
           int num = 0;        long start = System.currentTimeMillis() / 1000;        while (true) {
               num = num + 1;            if (num == Integer.MAX_VALUE) {
                   System.out.println("reset");                num = 0;            }

最低0.47元/天解锁文章

Hi丶ImViper

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Java线上问题排查以及工具使用方法，提高bug修复效率！

前言本文总结了一些常见的线上应急现象和对应排查步骤和工具。分享的主要目的是想让对线上问题接触少的同学有个预先认知，免得在遇到实际问题时手忙脚乱。毕竟作者自己也是从手忙脚乱时走过来的。只不过这里先提示一下。在线上应急过程中要记住，只有一个总体目标：尽快恢复服务，消除影响。不管处于应急的哪个阶段，我们首先必须想到的是恢复问题，恢复问题不一定能够定位问题，也不一定有完美的解决方案，也许是通过经验判断，也许是预设开关等，但都可能让我们达到快速恢复的目的，然后保留部分现场，再去定位问题、解决问题和复盘。在大多
复制链接

扫一扫