一、Java程序的运行
1.Java从编译到执行
1)Java程序运行过程
如图所示,我们的Java代码需要通过javac编译成.class后缀的字节码文件,然后才能被JVM执行。在JVM中,首先需要通过类加载器加载这个字节码文件,然后由字节码解释器去解析字节码文件,最后由执行引擎去基于解析后的指令去操作OS硬件系统。
2)什么是JIT(Just In Time Compiler)?
当虚拟机发现某个方法或代码块的运行特别频繁的时候,就会把这些代码认定为“热点代码”。为了提高热点代码的执行效率,在运行时,即时编译器JIT会把这些代码编译成与本地平台相关的机器码,并进行各种层次的优化。
3)解释器和编译器的优点
解释器的优点:当程序需要迅速启动的时候,解释器可以首先发挥作用,省去了编译的时间,立即执行。解释执行占用更小的内存空间。同时,当编译器进行的激进优化失败的时候,还可以进行逆优化来恢复到解释执行的状态。
编译器的优点:在程序运行时,随着时间的推移,编译器逐渐发挥作用,把越来越多的代码编译成本地代码之后,可以获得更高的执行效率。
结论:通常在虚拟机的架构中,解释器与编译器通常会配合工作,提升效率。
2.JVM跨平台和语言无关性
1)JVM的跨平台
JVM如何做到的跨平台?
Java官方提供了各个平台32bit和64bit的机器的JDK,JDK中包含了该操作系统下的JVM,JVM可以在该操作系统下运行。
站在JVM的角度,JVM只识别字节码文件,我们编译后的代码统一会编译成字节码文件,所以我们的代码可以在各个平台上运行,也就是Java官方从包揽了各个平台下JVM的开发工作。以达到平台无关性。
2)JVM的语言无关性
JVM可以解释执行字节码文件,所以无论语言是什么样,最终可以编译成字节码文件,这样的代码就可以在JVM上运行。
无论是java、scala、kotlin、groovy等,也是编译成字节码文件才能在JVM上运行。
Java的跨语言性帮助了Java生态圈的发展。
二、Java内存区域
1.运行时数据区域
Java虚拟机在执行Java程序的过程中会把它所管理的内存划分为若干个不同的数据区域。
有些区域是线程私有的,有些区域是线程共享的。
1)线程私有
- Java虚拟机栈
- 本地方法栈
- 程序计数器
2)线程共享
- 方法区
- 运行时常量池
- 堆
- 直接内存
2.Java虚拟机栈
1)什么是栈?
先进后出(FILO)的数据结构,可以想象一下弹夹的原理,子弹先压入的会最后打出。
2)什么是Java虚拟机栈?
存储当前线程运行Java方法的数据、指令和返回地址。
3)Java虚拟机栈中存储内容?
虚拟机栈的核心是栈帧,随着方法的调用和返回,在Java虚拟机栈中对应的是栈帧的入栈和出栈。栈帧中存储了这个方法的全部信息(局部变量表、操作数栈等)。
4)Java虚拟机栈参数
虚拟机栈的大小缺省为 1M,可用参数 –Xss 调整大小,例如-Xss256k。
参数官方文档(JDK1.8):https://docs.oracle.com/javase/8/docs/technotes/tools/unix/java.html
5)栈帧的数据结构
方法执行伴随着Java虚拟机栈中压入了一个栈帧,字节码指令执行依赖于栈帧中的内容。
i)局部变量表
局部变量的表,存放局部变量。存储单元32bit的长度,主要存放Java的8大基础数据类型,所以一般32bit就可以存放,long和double使用高低位占用两个也可以存放下。
局部的对象只需要存放它的引用地址。
ii)操作数栈
操作数栈存放Java方法执行的操作数,数据结构是一个栈,操作的元素可以是任意的Java数据类型。一个方法刚开始时,操作数栈是空的。
操作数栈是执行引擎的一个工作区,线程在执行方法时才会对操作数栈进行操作,如果不执行代码则操作数栈是空的。
冯诺伊曼结构:CPU + 内存 + 磁盘
操作系统也是一个个软件,运行时主要操作 CPU + 缓存 + 主内存。
JVM和操作系统类似,是一个Mini版的操作系统,JVM执行引擎数据放在栈和堆中,操作数栈就是JVM的缓存。所以JVM运行时主要操作 执行引擎 + 操作数栈 + 栈和堆。
操作数栈就好比操作系统的高速缓存。
字节码指令集:https://cloud.tencent.com/developer/article/1333540
iii)动态链接
Java语言特性多态
iv)返回地址(完成出口)
正常返回:调用程序计数器中的地址作为返回
异常返回:通过异常处理器表<非栈帧中的>来确定
3.程序计数器
存储空间小,指向当前线程正在执行的字节码指令的地址,各个线程间私有,互不影响。
为什么需要程序计数器?
操作系统时间片轮转,程序计数器确保在执行代码过程中,由于到达时间片时间,线程回归就绪状态,再次得到时间片时还能按照之前的指令行号继续执行。
程序计数器是在JVM中唯一不会发生 OOM 异常的内存区域。
4.本地方法栈
本地方法栈跟Java虚拟机栈的功能类似,Java虚拟机栈用于管理Java函数的调用,而本地方法栈则用于管理本地方法的调用。但本地方法并不是用Java实现的,而是由C语言实现的(比如 Object.hashcode 方法)。
本地方法栈是和虚拟机栈非常相似的一个区域,它服务的对象是native方法。你甚至可以认为虚拟机栈和本地方法栈是同一个区域。虚拟机规范无强制规定,各版本虚拟机自由实现 ,HotSpot直接把本地方法栈和虚拟机栈合二为一。
5.方法区
- 永久代与元空间
- 运行时常量池
方法区(Method Area)是可供各条线程共享的运行时内存区域。它存储了每一个类的结构信息,例如运行时常量池(Runtime Constant Pool) 字段和方法数据、构造函数和普通方法的字节码内容、还包括一些在类、实例、接口初始化时用到的特殊方法
方法区是JVM对内存的“逻辑划分”,在 JDK1.7 及之前很多开发者都习惯将方法区称为“永久代”,是因为在 HotSpot 虚拟机中,设计人员使用了永久代来实现了JVM 规范的方法区。在JDK1.8及以后使用了元空间来实现方法区。
1)jdk7永久代、jdk8元空间
方法区与堆空间类似,也是一个共享内存区,所以方法区是线程共享的。假如两个线程都试图访问方法区中的同一个类信息,而这个类还没有装入 JVM, 那么此时就只允许一个线程去加载它,另一个线程必须等待。
在 HotSpot 虚拟机、Java7 版本中已经将永久代的静态变量和运行时常量池转移到了堆中,其余部分则存储在 JVM 的非堆内存中,而 Java8 版本 已经将方法区中实现的永久代去掉了,并用元空间(class metadata)代替了之前的永久代,并且元空间的存储位置是本地内存。
2)运行时常量池
运行时常量池(Runtime Constant Pool)是每一个类或接口的常量池(Constant_Pool)的运行时表示形式,它包括了若干种不同的常量:从编译期可知的数值字面量到必须运行期解析后才能获得的方法或字段引用。
运行时常量池是方法区的一部分。运行时常量池相对于 Class 常量池的另外一个重要特征是具备动态性。
方法区的常量池
- Class常量池(静态)
class 方法 接口 描述 版本 字面量
符号引用:编译期间一个类引用了另一个类静态方法,但是不知道这个类对象地址,就只能用符号引用去替代。类加载的时候会把符号引用变成直接引用。 - 运行时常量池
类和接口在运行时的表现。 - 字符串常量池
5.堆
堆是JVM最大的内存区域,我们申请的几乎所有的对象,都是在这里存储的。我们常说的垃圾回收,操作的对象就是堆。堆空间一般是程序启动时,就申请了,但是并不一定会全部使用。堆一般设置成可伸缩的。随着对象的频繁创建,堆空间占用的越来越多,就需要不定期的对不再使用的对象进行回收。这个在 Java 中,就叫作GC(Garbage Collection)。
那一个对象创建的时候,到底是在堆上分配,还是在栈上分配呢?
这和两个方面有关:对象的类型和在 Java 类中存在的位置。
Java 的对象可以分为基本数据类型和普通对象。对于普通对象来说,JVM 会首先在堆上创建对象,然后在其他地方使用的其实是它的引用。比如,把这个引用保存在虚拟机栈的局部变量表中。 对于基本数据类型来说(byte、short、int、long、float、double、char),有两种情况。 当你在方法体内声明了基本数据类型的对象,它就会在栈上直接分配。其他情况,都是在堆上分配
5.直接内存
直接内存有一种更加科学的叫法,堆外内存。
JVM 在运行时,会从操作系统申请大块的堆内存,进行数据的存储;同时还有虚拟机栈、本地方法栈和程序计数器,这块称之为栈区。操作系统剩余的内存也就是堆外内存。它不是虚拟机运行时数据区的一部分,也不是java虚拟机规范中定义的内存区域;
如果使用了NIO,这块区域会被频繁使用,在 java 堆内可以用 directByteBuffer 对象直接引用并操作;
这块内存不受 java 堆大小限制,但受本机总内存的限制,可以通过-XX:MaxDirectMemorySize 来设置(默认与堆内存最大值一样),所以也会出现 OOM 异常。
2)内存小结:
- 直接内存主要是通过 DirectByteBuffer 申请的内存,可以使用参数“MaxDirectMemorySize”来限制它的大小。
- 其他堆外内存,主要是指使用了 Unsafe 或者其他 JNI 手段直接直接申请的内存。 堆外内存的泄漏是非常严重的,它的排查难度高、影响大,甚至会造成主机的死亡。
同时,要注意 Oracle 之前计划在 Java 9 中去掉 sun.misc.Unsafe API。这里删除 sun.misc.Unsafe 的原因之一是使 Java 更加安全,并且有替代方案。目前我们主要针对的 JDK1.8,JDK1.9暂时不放入讨论范围中,我们大致知道java的发展即可。
三、深入理解JVM内存区域
1.启动JAVA程序,JVM处理全流程
- JVM申请内存
JVM向操作系统申请内存,大小和JVM相关参数设置有关。 - 初始化运行时数据区域
初始化运行时数据区域,对各个区域进行合理的分配。 - 类加载
把类加载到方法区 - 执行方法
主线程的Java虚拟机栈,压入Main方法的栈帧, - 创建对象
在堆中创建对象,局部变量表中存储对象的引用。
2.栈的优化技术
如上图Java虚拟机栈内有两个栈帧,每个栈帧里面都会有操作数栈,栈帧的信息和局部变量表。
如果方法调用调用方法的过程中有参数的传递,前后两个栈帧可以共享一部分区域来传递三处。
为什么栈顶操作数栈和下一个局部变量表共用一个区域?
在方法执行的时候参数会在局部变量表并压入操作数栈,被调用的方法的参数其实也是一个局部变量,所以上栈帧的局部变量和下栈帧的操作数栈共用参数的数据,这样更节省空间。
3.内存溢出 OOM
- 栈溢出
无穷递归的代码会跑出 Stack over flow。
Java虚拟机栈大小固定,创建线程的时候分配Java虚拟机栈空间,如果JVM内存不够了也会抛出OOM的异常。 - 堆溢出
设置堆的大小固定,不断的创建被持有的对象,超出大小限制就会内存溢出。因为对象被持有GC清理不掉,一旦超出了限制就会抛出,OOM:GC overhead limit exceded.异常信息。(GC 回收资源不足2%)
或者是一次想创建一个比堆大的对象,也会抛出OOM:java heap space - 方法区溢出
设置方法区的大小,使用CGLIB Enhancer无限循环设置固定的类的class对象。
抛出OOM:metaspace - 直接内存溢出
指定直接内存的大小,使用ByteBuff 创建一个超过直接内存的大对象,超出指定的大小限制。会抛出,OOM:Direct buffer memory.