哪些场景会产生OOM?线上遇到OOM怎么解决?

前言:OOM 意味着程序存在着漏洞,可能是代码或者 JVM 参数配置引起的。常说对生产环境保持敬畏之心,快速解决问题也是一种敬畏的表现。Java 进程触发了 OOM 后如何排查?


一、OOM异常

1.1、OOM概念

OOM 全称 “Out Of Memory”,表示内存耗尽。当 JVM 因为没有足够的内存来为对象分配空间,并且垃圾回收器也已经没有空间可回收时,就会抛出这个错误,导致Java进程崩溃。Web系统访问页面可能会出现502 Bad Gateway和504 Gateway time-out,也就是请求无响应。

为什么会出现 OOM,一般由这些问题引起

  • 分配过少:JVM 初始化内存小,业务使用了大量内存;或者不同 JVM 区域分配内存不合理

  • 代码漏洞:某一个对象被频繁申请,不用了之后却没有被释放,导致内存耗尽

内存泄漏:申请使用完的内存没有释放,导致虚拟机不能再次使用该内存,此时这段内存就泄露了。因为申请者不用了,而又不能被虚拟机分配给别人用

内存溢出:申请的内存超出了 JVM 能提供的内存大小,此时称之为溢出

内存泄漏持续存在,最后一定会溢出,两者是因果关系

1.2、常见的OOM类型

比较常见的 OOM 类型有以下几种:

java.lang.OutOfMemoryError: PermGen space

Java7 永久代(方法区)溢出,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译器编译后的代码等数据。每当一个类初次加载的时候,元数据都会存放到永久代

一般出现于大量 Class 对象或者 JSP 页面,或者采用 CgLib 动态代理技术导致

我们可以通过 -XX:PermSize 和 -XX:MaxPermSize 修改方法区大小

Java8 将永久代变更为元空间,报错:java.lang.OutOfMemoryError: Metadata space,元空间内存不足默认进行动态扩展。

java.lang.StackOverflowError

虚拟机栈溢出,一般是由于程序中存在 死循环或者深度递归调用 造成的。如果栈大小设置过小也会出现溢出,可以通过 -Xss 设置栈的大小

虚拟机抛出栈溢出错误,可以在日志中定位到错误的类、方法

java.lang.OutOfMemoryError: Java heap space

Java 堆内存溢出,溢出的原因一般由于 JVM 堆内存设置不合理或者内存泄漏导致

如果是内存泄漏,可以通过工具查看泄漏对象到 GC Roots 的引用链。掌握了泄漏对象的类型信息以及 GC Roots 引用链信息,就可以精准地定位出泄漏代码的位置

如果不存在内存泄漏,就是内存中的对象确实都还必须存活着,那就应该检查虚拟机的堆参数(-Xmx 与 -Xms),查看是否可以将虚拟机的内存调大些

小结:方法区和虚拟机栈的溢出场景不在本篇过多讨论,下面主要讲解常见的 Java 堆空间的 OOM 排查思路


二、哪些场景会产生OOM

2.1、堆内存溢出

堆内存溢出太常见,大部分人都应该能想得到这一点,堆内存用来存储对象实例,我们只要不停的创建对象,并且保证GC Roots和对象之间有可达路径避免垃圾回收,那么在对象数量超过最大堆的大小限制后很快就能出现这个异常。

写一段代码测试一下,设置堆内存大小2M。

public class HeapOOM {
    public static void main(String[] args) {
        List<HeapOOM> list = new ArrayList<>();
        while (true) {
            list.add(new HeapOOM());
        }
    }
}

运行代码,很快能看见OOM异常出现,这里的提示是Java heap space堆内存溢出。

一般的排查方式可以通过设置-XX: +HeapDumpOnOutOfMemoryError在发生异常时dump出当前的内存转储快照来分析,分析可以使用Eclipse Memory Analyzer(MAT)来分析,独立文件可以在官网下载。

另外如果使用的是IDEA的话,可以使用商业版JProfiler或者开源版本的JVM-Profiler,此外IDEA2018版本之后内置了分析工具,包括Flame Graph(火焰图)和Call Tree(调用树)功能。

火焰图

2.2、方法区(运行时常量池)和元空间溢出

方法区和堆一样,是线程共享的区域,包含Class文件信息、运行时常量池、常量池,运行时常量池和常量池的主要区别是具备动态性,也就是不一定非要是在Class文件中的常量池中的内容才能进入运行时常量池,运行期间也可以可以将新的常量放入池中,比如String的intern()方法。

我们写一段代码验证一下String.intern(),同时我们设置-XX:MetaspaceSize=50m -XX:MaxMetaspaceSize=50m 元空间大小。由于我使用的是1.8版本的JDK,而1.8版本之前方法区存在于永久代(PermGen),1.8之后取消了永久代的概念,转为元空间(Metaspace),如果是之前版本可以设置PermSize MaxPermSize永久代的大小。

 private static String str = "test";
    public static void main(String[] args) {
        List<String> list = new ArrayList<>();
        while (true){
            String str2 = str + str;
            str = str2;
            list.add(str.intern());
        }
}

运行代码,会发现代码报错。

再次修改配置,去除元空间限制,修改堆内存大小-Xms20m -Xmx20m,可以看见堆内存报错。

这是为什么呢?intern()本身是一个native方法,它的作用是:如果字符串常量池中已经包含一个等 于此String对象的字符串,则返回代表池中这个字符串的String对象;否则,将此String对象包含的字符串添加到常量池中,并且返回String对象的引用。

而在1.7版本之后,字符串常量池已经转移到堆区,所以会报出堆内存溢出的错误,如果1.7之前版本的话会看见PermGen space的报错。

2.3、直接内存溢出

直接内存并不是虚拟机运行时数据区域的一部分,并且不受堆内存的限制,但是受到机器内存大小的限制。常见的比如在NIO中可以使用native函数直接分配堆外内存就容易导致OOM的问题。

直接内存大小可以通过-XX:MaxDirectMemorySize指定,如果不指定,则默认与Java 堆最大值-Xmx一样。

由直接内存导致的内存溢出,一个明显的特征是在Dump文件中不会看见明显的异常,如果发现OOM之后Dump文件很小,而程序中又直接或间接使用了NIO,那就可以考虑检查一下是不是这方面的原因。

2.4、栈内存溢出

栈是线程私有,它的生命周期和线程相同。每个方法在执行的同时都会创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口等信息,方法调用的过程就是栈帧入栈和出栈的过程。

在java虚拟机规范中,对虚拟机栈定义了两种异常:

  1. 如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflowError异常

  2. 如果虚拟机栈可以动态扩展,并且扩展时无法申请到足够的内存,抛出OutOfMemoryError异常

先写一段代码测试一下,设置-Xss160k,-Xss代表每个线程的栈内存大小

public class StackOOM {
    private int length = 1;

    public void stackTest() {
        System.out.println("stack lenght=" + length);
        length++;
        stackTest();
    }

    public static void main(String[] args) {
        StackOOM test = new StackOOM();
        test.stackTest();
    }
}

测试发现,单线程下无论怎么设置参数都是StackOverflow异常。

尝试把代码修改为多线程,调整-Xss2m,因为为每个线程分配的内存越大,栈空间可容纳的线程数量越少,越容易产生内存溢出。反之,如果内存不够的情况,可以调小该参数来达到支撑更多线程的目的。

public class StackOOM {
    private void dontStop() {
        while (true) {
        }
    }

    public void stackLeakByThread() {
        while (true) {
            new Thread(() -> dontStop()).start();
        }
    }

    public static void main(String[] args) throws Throwable {
        StackOOM stackOOM = new StackOOM();
        stackOOM.stackLeakByThread();
    }
}

三、总结

线上如遇到 JVM 内存溢出,可以分以下几步排查

  1. jmap -heap 查看是否内存分配过小

  2. jmap -histo 查看是否有明显的对象分配过多且没有释放情况

  3. jmap -dump 导出 JVM 当前内存快照,使用 JDK 自带或 MAT 等工具分析快照

如果上面还不能定位问题,那么需要排查应用是否在不断创建资源,比如网络连接或者线程,都可能会导致系统资源耗尽


参考链接:

如果线上遇到了OOM,该如何解决?

Arthas(阿尔萨斯)的基本使用

### Java 线OOM OutOfMemoryError 解决方案 #### 一、理解 OOM 错误类型 Java 应用程序中的 `OutOfMemoryError` 主要分为几种常见类型: - **Java 堆内存不足(Java Heap Space OOM)** 这种类型的错误表明 JVM 的堆空间不足以完成垃圾回收操作,通常是因为对象过多或单个对象过大。当应用程序创建大量临时对象而未能及时释放时,可能会触发此类错误[^1]。 - **GC Overhead Limit Exceeded** 此错误表示垃圾收集器花费了太多时间尝试清理少量可用内存,导致应用性能严重下降甚至停止响应。Oracle 官方指出该情况通常是由于频繁的小规模垃圾回收造成系统资源耗尽所致[^2]。 #### 二、诊断工具与技术 为了有效定位和解决问题,在线环境下的调试至关重要。可以采用如下手段来捕获必要的信息用于后续分析: - 使用 `-XX:+HeapDumpOnOutOfMemoryError` 参数配置JVM启动参数,使得发生OOM时自动生成heap dump文件供离线分析。 - 利用 VisualVM 或 JProfiler 进行实时监控,观察内存变化趋势以及各代存活对象数量;还可以通过这些工具获取线程转储(Thread Dump),帮助识别是否存在死锁等问题影响正常工作流程。 - 查看日志记录,特别是那些由第三方库生成的日志条目,它们可能隐藏着关于异常行为的重要线索。 ```bash jmap -histo:live <pid> | head -n 50 # 显示当前进程中前五十大类实例占用的总字节数量 ``` 上述命令可以帮助快速了解哪些类正在消耗较多的内存资源。 #### 三、具体措施建议 针对不同种类的 OOM 错误采取相应的预防性和修复性行动: 对于 **Java Heap Space OOM**: - 分析 heap dump 文件找出泄露源码位置; - 减少不必要的缓存数据保留期限; - 提高数据库查询效率减少一次性加载的数据集大小; - 合理调整最大堆尺寸(`-Xmx`) 和初始堆尺寸 (`-Xms`) 设置以适应实际负载需求。 面对 **GC Overhead Limit Exceeded** : - 修改 GC算法选项如选用G1收集器替代CMS; - 扩展年轻代比例使更多短生命周期的对象能够在此处被迅速清除而不进入老年代引发全局扫描; - 如果业务逻辑允许的话适当放宽gc开销阈值(-XX:GCTimeRatio=99); - 对于某些特殊场景考虑引入软/弱引用机制代替强引用来管理可选组件间的依赖关系从而降低整体压力. ```xml <property name="spring.datasource.hikari.maximumPoolSize" value="${MAX_POOL_SIZE}" /> <!-- 配置连接池的最大活跃数 --> ``` 合理设置数据库连接池参数也是缓解内存紧张的有效途径之一。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AI何哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值