作为一名Java开发人员,JVM是我们每天都会打交道的对象。但是由于JVM处于知识体系的底层,同时工作中有可能接触的机会不是很多,导致很多人都对JVM相关的知识一知半解。一般只会在面试的时候,才来准备这部分内容。但JVM是为了让我们更好的理解Java,更深入了解我们每天开发程序的执行机制。
所以从本篇文章开始,我们来介绍以下JVM相关的知识。大致规划一下应该会包括 以下内容:JVM内存区域、垃圾收集器介绍、JVM性能监控指标及工具。另外,JVM系列的文章,基本都来自对《深入理解java虚拟机》一书的理解与总结及相关的博客文章,有可能有不对的地方,还希望大佬可以不吝指出。在文章开始我先给一下我在看博客过程中,遇到的比较优秀的JVM文章的相关作者:
关于上述两位大神,我这里就不多介绍了,去盘大佬们的文章就好。
Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。这些区域都有各自的用途,以及创建和销毁的时间,有的区域随着虚拟机进程启动而存在,有写区域则是依赖用户线程的启动和结束而建立和销毁。根据《Java虚拟机规范》的规定,Java虚拟机所管理的内存将会包括一下几个运行时数据区域,如下所示:
1. 运行时数据区
1.1 程序计数器
程序计数器是一块比较小的内存空间,它的作用可以看作是当前线程所执行字节码的行号指示器。在虚拟机的概念模型里(这里强调一下,是概念模型,各种虚拟机可以通过一些更高效的方式去实现),字节码解释器工作时就是通过改变这个计数器的值来选取吓一跳需要执行的字节码指令,分之、循环、跳转、异常处理、线程恢复等基础功能都需要依赖这个计数器来完成。
由于Java虚拟机的多线程通过线程轮流切换并分配处理器执行时间来实现的,在任何一个时刻,一个处理器(对于多核处理器来说是一个内核)只会执行一条线程中的指令。因此为了线程切换后能够恢复到正确的位置,每个线程都需要有一个独立的程序计数器,各个线程之间的计数器互不影响,独立存储,我们称这类内存区域为“线程私有”的内存。
如果线程正在执行的是一个Java方法,这种歌计数器记录的是正在执行的虚拟机字节码指令的地址;如果正在执行的是native方法,这个计数器值则为空。此区域是唯一一个在Java虚拟机规范中没有规定OutOfMemoryError情况的区域。
1.2 Java虚拟机栈
与程序计数器一样,Java虚拟机栈也是线程私有的。它的声明周期和线程相同。虚拟机栈描述的是Java方法执行的内存模型:每个方法被执行的时候都会同时创建一个栈帧用于存储局部变量表、操作数栈、动态链接、方法出口等信息。每一个方法被调用直至执行完成的过程,就对应着一个栈帧在虚拟机栈中入栈到出栈的过程。
局部变量表存放了编译期可知的8中基本类型(byte、short、int、long、float、double、char、boolean)、对象引用(reference类型,它不等同与对象本身,根据不同的虚拟机实现,它可能是一个指向对象起始地址的引用指针,也可能是指向一个代表对象的句柄)和returnAddress类型(指向了一条字节码指令的地址)。
在Java虚拟机规范中,对这个区域规范了两种异常状况:如果线程请求的栈深度大于虚拟机所允许的深度,将抛出StackOverflowError;如果虚拟机栈可以动态扩展(当前大部分Java虚拟机都可动态扩展,只不过Java虚拟机规范也允许固定长度的虚拟机栈),当扩展时无法申请到足够的内存时会抛出OutOfMemoryError异常。
1.3 本地方法栈
本地方法栈与Java虚拟机栈发挥的作用非常类似,区别在于Java虚拟机栈是为Java方法(也就是字节码)服务的,而本地方法栈则是为虚拟机所使用到的Native方法服务的。虚拟机规范中对于本地方法栈中的方法使用的语言、使用方式与数据结构并没有强制规定,因此具体的虚拟机可以自由实现。甚至有的虚拟机(比如Sun HotSpot虚拟机)直接就把本地方法栈和Java虚拟机栈合二为一。与虚拟机栈一样,本地方法栈区域也会抛出StackOverFlowError和OutOfMemoryError异常。
1.4 Java堆
对大多数应用来说,Java堆是Java虚拟机所管理内存中最大的一块。Java堆是被所有线程共享的一块区域,在虚拟机启动时创建。词内存区域的唯一目的就是存放对象实例,几乎所有的对象实例以及数组都在堆上分配(这里说的是几乎,随着JIT编译器的发展和逃逸分析技术的逐渐成熟,栈上分配、标量替换优化技术将会导致一些微妙的变化发生,所有的对象都分配在堆上也逐渐变得不那么“绝对”了)。
Java堆是垃圾收集器管理的主要区域,因此有时候也被称作“GC堆”。如果从内存回收角度看,由于现在的收集器基本都是采用分代回收算法,所以Java堆中还可以细分为:新生代和老年代。在细致一点可以划分为Enden空间、From Survivor空间、To Survivor空间。如果从内存分配角度看,线程共享的Java堆中可能划分出多个线程私有的分配缓冲区(Thread Local Allocation Buffer,TLAB)。不过无论如何划分,都与存放内容无关,无论哪个区域,存储的依然都是对象实例。进一步划分的目的是为了更好地回首内存,或者更快地分配内存。
根据Java虚拟机规范的规定,Java堆可以处于物理上不连续的内存空间中,只要逻辑上是连续的即可,就像磁盘空间一样。在实现时,既可以是线程固定大小的,也可以是可扩展的,不过当前主流的虚拟机都是按照可扩展来实现的(通过-Xmx和-Xms控制)。如果在队中没有内存完成实例分配,并且堆也无法在扩展时,将会抛出OutOfMemoryError异常。
1.5 方法区
方法区与Java堆一样,是各个线程共享的内存区域,它用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据。虽然Java虚拟机规范吧方法区描述为堆的一个逻辑部分,但是它却又一个别名叫做Non-Heap(非堆),目的是与Java堆区分开来。
对于习惯在HotSpot虚拟机上开发和部署程序的开发者来说,很多人愿意吧方法区称为“永久代”,本质上两者并不等价,仅仅是因为HotSpot虚拟机团队选择把GC分代收集扩展是方法区,或者说使用永久代来实现方法区而已。对于其它虚拟机(如BEA JRockit、IBM J9等)来说是不存在永久带的概念的。即使是HotSpot虚拟机本身,现在也放弃了永久代,转而通过Native Memory(元空间)来实现方法区了。
Java虚拟机规范对于这个区域的限制分厂宽松,除了和Java堆一样不需要连续的内存空间和可以选择固定大小和扩展外,还可以选择不实现垃圾收集。相对而言,垃圾手机行为在这个区域是比较少出现的,但并非数据进入方法区就如永久代的名字一样“永久”存在了。这个区域的内存回收目标主要是针对常量池的回收和堆类型的卸载,一般来说这个区域的回收“成绩”比较难以令人满意,尤其是类型的卸载,条件相当苛刻,但是这部分区域的回收确实是有必要的。根据Java虚拟机规范规定,当方法区无法满足内存分配需求时,将抛出OutOfMemoryError异常。
1.6 运行时常量池
运行时常量池是方法区的一部分(Java7之前,Java7及之后的版本,运行时常量池被移到堆中)。Class文件中除了有类的版本、字段、方法、接口等描述信息外,还有一项信息是常量池(Constant Pool Table),用于存放编译期生成的各种字面量和符号引用,这部分内容将在类加载后存放到方法区的运行时常量池中。(这部分的示例可以区参考之前的一篇文章Java编程拾遗『String类』)
Java虚拟机对Class文件的每一部分的格式都有严格的规定,每一个字节用于存储那种数据都必须符合规范上的要求,这样才会被虚拟机认可、装载和执行。但对于运行时常量池,Java虚拟机规范没有做任何细节的要求,不同的提供商实现的虚拟机可以按照自己的需要来实现这个区域。不过一般来说,除了保存Class文件中描述的符号饮用外,还会把翻译出来的直接引用也存储在运行时常量池中。
运行时常量池相对于Class文件常量池的另一个重要特征是具备动态性,Java语言并不要求常量一定只能在编译期产生,运行期间也可能将新的常量放入运行时常量池中,比如String类的intern()方法。
既然运行时常量池是方法区的一部分,自然也会受到方法去内存的限制,当运行时常量池无法在申请到内存时会抛出OutOfMemoryError异常。
上述6个部分基本就是JVM管理的运行时数据区,更细致的划分及相应的控制参数如下图所示,对于下图中出现的控制参数会在后续的文章中介绍:
2. Java对象访问
介绍完JVM运行时数据区后,我们来看一个比较Java中比较基础的一个问题:在Java语言中,对象是如何访问的?对象访问在Java中无处不在,是最基础的行为,那么对象的访问跟我们之前介绍的JVM运行时数据区有什么关联?比如下面这行代码:
Object obj = new Object();
假设这句代码出现在方法体中,那么“Object obj”这部分的语义将会反映到Java虚拟机栈的局部变量表中,作为一个reference类型数据出现。而“new Object()”这部分的语义将会反映到Java堆中,形成一块存储了Object类型所有实例数据值(对象中各个实例成员变量的字段)的结构化内存,根据具体类型以及虚拟机实现的对象内存布局的不同,这块内存的长度是不固定的。另外,在Java堆中还必须包含能够查找到词对象类型数据(如对象的类型、父类、实现的接口、方法)的地址信息,这些数据类型存储在方法区中。
由于reference类型在Java虚拟机规范里只规定了一个指向对象的引用,并没有定义这个引用应该通过哪种方式去定位,以及访问到Java堆中的对象的具体位置。因此不同的虚拟机实现的对象访问方式会有所不同,主流的访问方式有两种:使用句柄和直接指针。
- 使用句柄的方式,Java堆中会规划出一块内存作为句柄池,reference中存储的就是对象的句柄地址,而句柄中包含了对象实例数据和类型数据各自的地址信息,如下图所示:
- 使用直接指针访问的方式,Java堆对象的布局中就必须考虑如何放置访问类型的相关信息,reference中存储的就是对象的地址,如下图所示:
这两种对象访问的方式各有优势,使用句柄访问的方式最大的好处就是reference中存储的是稳定的句柄地址,在对象被移动(比如垃圾收集时,整理内存空间)时只需要改变句柄中的实例数据地址,而reference本身不需要被修改。
使用直接指针的方式最大的好处在于速度更快,它节省了一次指针定位的时间开销,对于对象的访问在Java中非常频繁,因此这类开销积少成多后也是一项非常大的执行成本。Sun HotSpot虚拟机而言,他使用的是直接指针进行对象访问的。
3. 模拟运行时数据区异常
上面介绍了JVM运行时数据区的各个区域,并提到每个区域可能的遇到的异常,本节就来通过Java代码来模拟一下各个区域的异常。以下代码实验环境:
体系结构: x86_64 64bit
Java 版本: 1.8.0_221
JVM: Java HotSpot(TM) 64-Bit Server VM (25.221-b11, mixed mode)
Java 供应商: Oracle Corporation
3.1 Java堆溢出
Java堆用于存储对象实例,我们只要不断创建对象,并保证GC Roots到对象之间有可达路径来避免垃圾回收机制清除这些对象,就会在对象数量达到堆的容量限制后产生内存溢出异常。
/**
* VM Args:-Xms20m -Xmx20m -XX:+HeapDumpOnOutOfMemoryError
*
*/
public class HeapOOM {
static class OOMObject {
}
public static void main(String[] args) throws InterruptedException {
List<OOMObject> list = new ArrayList<>();
while (true) {
list.add(new OOMObject());
}
}
}
上述代码,我们限制堆空间大小为20M,不可扩展(将堆的最小值-Xms参数与最大值-Xmx参数设置为一样即可避免堆自动扩展),通过-XX:+HeapDumpOnOutOfMemoryError可以让虚拟机在出现内存溢出异常时Dump出当前的内存堆转储快照以便事后分析。
运行结果:
java.lang.OutOfMemoryError: Java heap space
Dumping heap to java_pid12597.hprof ...
Heap dump file created [27795654 bytes in 0.127 secs]
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Arrays.java:3210)
at java.util.Arrays.copyOf(Arrays.java:3181)
at java.util.ArrayList.grow(ArrayList.java:265)
at java.util.ArrayList.ensureExplicitCapacity(ArrayList.java:239)
at java.util.ArrayList.ensureCapacityInternal(ArrayList.java:231)
at java.util.ArrayList.add(ArrayList.java:462)
at com.zhuoli.service.thinking.java.jvm.HeapOOM.main(HeapOOM.java:22)
Java堆内存的OOM异常是实际应用中最常见的内存溢出异常情况。出现Java堆内存溢出时,异常堆栈信息“Java heap space”。要解决这个区域的异常,一般手段是首先通过内存映像分析工具(如Eclipse Memory Analyzer)对dump出来的堆转储快照进行分心,重点是确认内存中的对象是否有必要,也就是线分清楚到底是出现了内存泄漏(Memory Leak)还是内存溢出(Memory Overflow)。
如果是内存泄漏,可以进一步通过工具查看泄漏对象到GC Roots的引用链。于是就能找到泄漏对象是通过怎样的路径与GC Roots相关联并导致垃圾收集器无法自动回收的。掌握了泄漏对象的类型信息,以及GC Toors引用链信息,就可以比较精确地定位到泄漏代码的位置。
如果不存在泄漏,换句话说就是内存中的对象确实都还必须存活着,那就应该检查虚拟机堆参数(-Xmx和-Xms),与物理内存相比看是否还可以调大,从代码上检查是否存在某些对象生命周期过长、持有状态时间过长的情况,尝试减少程序运行期的内存消耗。
3.2 虚拟机栈溢出
由于HotSpot虚拟机并不区分虚拟机栈和本地方法栈,因此对于HotSpot虚拟机来说,-Xoss参数(设置本地方法栈大小)虽然存在,但实际上是无效的,栈容量只由-Xss参数设定。关于虚拟机栈和本地方法栈,在Java虚拟机规范中描述了两种异常:
- 如果线程请求栈的深度大于虚拟机所允许的最大深度,将跑出StackOverflowError异常。
- 如果虚拟机在扩展栈时无法申请到足够的内存空间,则跑出OutOfMemoryError异常。
这里把异常氛围两种情况看似更加严谨,但却存在一些互相重叠的地方:当栈空间无法继续分配时,到底是内存太小,还是已使用栈空间太大,其本质只是对同一问题的两种描述而已。
在笔者的实验中,如果将实验范围限制于单线程中的操作,尝试下面的两种方法均无法让虚拟机产生OutOfMemoryError异常,尝试的结果都是获得了StackOverflowError异常。
- 使用-Xss参数减少栈内存容量。结果:抛出StackOverflowError异常,异常输出时栈的深度相应缩小。
- 定义了大量的本地变量,增加此方法栈帧中本地变量表的长度。结果,抛出StackOverflowError异常,异常输出时栈的深度相应缩小。
/**
* @author zhuoli
* VM Args: -Xss256k
*/
public class JVMStackOverflow {
private int stackLength = 1;
public void stackLeak() {
stackLength++;
stackLeak();
}
public static void main(String[] args) {
JVMStackOverflow oom = new JVMStackOverflow();
try {
oom.stackLeak();
} catch (Throwable e) {
System.out.println("stack length:" + oom.stackLength);
throw e;
}
}
}
运行结果:
stack length:2414
Exception in thread "main" java.lang.StackOverflowError
at com.zhuoli.service.thinking.java.jvm.JVMStackOverflow.stackLeak(JVMStackOverflow.java:13)
at com.zhuoli.service.thinking.java.jvm.JVMStackOverflow.stackLeak(JVMStackOverflow.java:13)
at com.zhuoli.service.thinking.java.jvm.JVMStackOverflow.stackLeak(JVMStackOverflow.java:13)
at com.zhuoli.service.thinking.java.jvm.JVMStackOverflow.stackLeak(JVMStackOverflow.java:13)
……
实验证明,在单个线程下,无论是由于栈帧太大,还是虚拟机栈容量太小,当内存无法分配的时候,虚拟机抛出的都是StackOverflowError异常。
如果测试时不限于单线程,通过不断建立线程的方式倒是可以产生内存溢出异常,代码如下所示。但是,这样产生的内存溢出异常与栈空间是否足够大并不存在直接联系,或者准确地说,在这种情况下,给每个线程的栈分配的内存越大,反而越容易产生内存溢出异常。
原因也很好理解,操作系统分配给每个进程的内存是有限制的,譬如32位的windows限制为2GB。虚拟机提供了参数来控制Java堆和方法去这两部分内存的最大值。生育的内存为2GB(操作系统限制)减去Xmx(最大堆容量),再减去MaxPermSize(最大方法区容量),程序计数器消耗内存很小,可以忽略掉。如果虚拟机进程本身消耗的内存不计算在内,生育的内存就由虚拟机栈和本地方法栈瓜分了。每个线程分配到的栈容量越大,可以建立的线程数量自然就越少,建立线程时就越容易把剩下的内存耗尽。
这一点,在开发多线程应用的时候要特别注意,出现StackOverflowError异常时有错误堆栈可以阅读,相对来说,比较容易找到问题所在。而且,如果使用虚拟机默认参数,栈深度在在大多数情况下达到1000~2000是没问题的,对于正常的方法调用(包括递归),这个深度应该是够用了。但是,如果是建立多线程导致的内存溢出,在不能减少线程数或者更换64为虚拟机的情况下,只能通过减少最大堆和减少栈容量来换取更多线程。如果没有这方面经验,这种通过“减少内存”的手段来解决内存溢出的方式会比较难以想到。
/**
* @author zhuoli
* VM Args : -Xss2M
*/
public class JVMStackOutOfMemory {
private void dontStop() {
while (true) {
}
}
public void stackLeakByThread() {
while (true) {
Runnable runnable = this::dontStop;
new Thread(runnable).start();
}
}
public static void main(String[] args) {
JVMStackOutOfMemory jvmStackOutOfMemory = new JVMStackOutOfMemory();
jvmStackOutOfMemory.stackLeakByThread();
}
}
上面这段代码,可以实现虚拟机栈的OutOfMemoryError异常。
3.3 运行时常量池溢出
向运行时常量池中添加内容,最简单的做饭就是使用String.intern()这个方法。该方法的作用是:在运行时,检查常量池中是否存在等于此String对象的字符串,如果存在,直接返回常量池中这个字符串String对象的引用。否则,将此String对象包含的字符串添加到常量池中,并且返回此String对象的引用。由于Java6及之前的版本,常量池分配在方法区内,我们可以通过-XX:PermSize和-XX:MaxPermSize限制方法区的大小,从而间接限制其中常量池的容量,如下所示:
/**
* @author zhuoli
* VM Args : -XX:PermSize=10M -XX:MaxPermSize=10M
*/
public class RuntimeConstantPoolOOM {
public static void main(String[] args) {
//使用List保持对常量池的引用,避免Full GC回收常量池行为
List<String> list = new ArrayList<>();
int i= 0;
while (true) {
list.add(String.valueOf(i).intern());
}
}
}
Exception in thread"main"java.lang.OutOfMemoryError:PermGen space
at java.lang.String.intern(Native Method)
从运行结果中可以看到,运行时常量池溢出,在OutOfMemoryError后面跟随的提示信息”PermGen space”,可以证明在Java6中,运行时常量池属于方法区的一部分。但是在Java8中运行,首先会提示上述两个JVM参数已经被移除:
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option PermSize=10M; support was removed in 8.0
Java HotSpot(TM) 64-Bit Server VM warning: ignoring option MaxPermSize=10M; support was removed in 8.0
其次,上述代码也不会抛出OutOfMemoryError异常,while循环可以一直运行下去(前提是堆空间足够)。
关于字符串常量池实现,由于常量池的转移,在Java6及之后的版本,实现也不完全相同,看一段代码:
public static void main(String[] args) {
String s1 = new StringBuilder("1").append("2").toString();
System.out.println(s1.intern() == s1);
String s2 = new StringBuilder("1").append("2").toString();
System.out.println(s2.intern() == s2);
}
这段代码在Java6中运行,会得到两个false,而在Java7及之后的版本中运行,会得到一个true和一个false。产生差异的原因是:在Java6中,intern()方法会把首次遇到的字符串实例复制到方法区的常量池中,返回的也是永久代中这个字符串实例的引用,而由StringBuilder创建的字符串实例在Java堆上,所以肯定不是同一个引用,将返回false。而Java7及之后的版本,intern()实现不会再复制实例,只是在常量池中记录首次出现的实例引用,因此intern()返回的引用和由StringBuilder创建的那个字符串实例是同一个,intern()返回的是该string对象第一次出现的位置(在Heap中)。所以,s1通过StringBuilder的toString()方法在堆中创建了一个字符串对象”12″,并且是首次出现,所以s1.intern()返回的就是堆中的字符串对象”12″的引用,第一个判断返回true。s2也通过StringBuilder的toString()方法在堆中创建了一个字符串对象”12″,但是s2.intern()返回的却是字符串”12″第一次出现的位置,所以肯定跟s2不相等,返回false。
在Java7及之后的版本中,运行时常量池已经转移到堆中,所以一般不会出现运行时常量池的溢出。
3.4 方法区溢出
方法区用于存储已被虚拟机加载的类信息、常量、静态变量、即时编译后的代码等数据。对于这个区域溢出的测试,基本思路是在运行时产生大量的类区填满方法区,直到溢出。在下述实验代码中,借助CGLIB动态代理技术,在运行时动态地生成并加载类。
特别值得注意的是:我们这个例子中模拟的场景并非单纯是一个实验,这样的应用通常会出现在实际引用中:当前很多主流框架,比如Spring对类进行增强时,都会使用到CGLIB这类字节码技术,增强类越多,就需要越大的方法区来保证动态生成的Class可以加载到内存。另外由于在Java7 HotSpot虚拟机开始移除永久代,并在Java8中使用元空间代替。所以JVM参数中,方法区的参数已失效,以下代码在Java8中实验。
/**
* @author zhuoli
* -XX:MetaspaceSize=10M -XX:MaxMetaspaceSize=10M
*/
public class JavaMethodAreaOOM {
public static void main(String[] args) {
while (true) {
Enhancer enhancer = new Enhancer();
enhancer.setSuperclass(OOMObject.class);
enhancer.setUseCache(false);
enhancer.setCallback((MethodInterceptor) (obj, method, args1, proxy) -> proxy.invokeSuper(obj, args1));
enhancer.create();
}
}
static class OOMObject {
}
}
运行结果:
Exception in thread "main" java.lang.OutOfMemoryError: Metaspace
at java.lang.Class.forName0(Native Method)
at java.lang.Class.forName(Class.java:348)
方法区溢出也是一种常见的内存溢出异常,一个类要被垃圾收集器回收掉,判定条件是比较苛刻的。在经常动态生成大量Class的应用中,需要特别注意类的回收状况。这类场景除了上面提到的程序使用了CGLib字节码增强和动态语言之外,常见的还有:大量JSP或动态产生JSP文件的应用(JSP第一次运行时需要编译为Java类)、基于OSGi的应用(即使是同一个类文件,被不同的加载器加载也会视为不同的类)等。
参考链接:
1. 《深入理解Java虚拟机》
2. JVM内存结构