Java类文件结构及其加载

最新推荐文章于 2024-03-21 15:24:48 发布

Vivinoo

最新推荐文章于 2024-03-21 15:24:48 发布

阅读量159

点赞数

分类专栏： Java基础

Java基础专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Class类文件的结构

Class文件是一组以8位字节为基础的二进制流，其中包含了两种数据类型：无符号数和表。
无符号数属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数，无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
表是由多个无符号数或者其他表作为数据项结构构成的复合数据类型，所有表都习惯性地以"_info"结尾。Class文件本质上就是一张表。

类型	名称	数量
u4	magic	1
u2	minor_version	1
u2	major_version	1
u2	constant_pool_count	1
cp_info	constant_pool	constant_pool_count-1
u2	access_flags	1
u2	this_class	1
u2	supper_class	1
u2	interfaces_count	1
u2	interfaces	interfaces_count
u2	feilds_count	1
field_info	fields	feilds_count
u2	methods_count	1
method_info	methods	methods_count
u2	attributes_count	1
attribute_info	attributes	attributes_count

####魔数与Class文件的版本
头4个字节称为魔数，确定这个文件是否是class文件。第5个、第6个是次版本号，第7个、8个是主版本号。
####常量池
常量池可以理解为Class文件中的资源仓库，它是Class文件结构中与其他项目关联最多的数据类型，也是占用Class文件空间最大的数据项目之一，同时它还是在Class文件之中第一个出现的表类型数据项目。
常量池中常量的数目是不一定的。
常量池中的常量index从1开始，0空出来是为了满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一常量池项目”的意思。
常量池之中主要存放量大类常量：字面量和符号引用（包括类和接口的全限定名、字段的名称和描述符、方法的名称和描述符）。

Java代码在进行Javac编译的时候，并不像C和C++那样有“连接”这一步骤，而是在虚拟
机加载Class文件的时候进行动态连接。也就是说，在Class文件中不会保存各个方法、字段
的最终内存布局信息，因此这些字段、方法的符号引用不经过运行期转换的话无法得到真正
的内存入口地址，也就无法直接被虚拟机使用。当虚拟机运行时，需要从常量池获得对应的
符号引用，再在类创建时或运行时解析、翻译到具体的内存地址之中。

常量池中的每一个常量都是一个表，共有11种结构各不相同的表结构数据。表开始的第一位是一个u1类型的标志位，代表当前中国常量属于哪种常量类型。

类型	标志	描述
CONSTANT_Utf8_info	1	UTF-8编码的字符串
CONSTANT_Integer_info	3	整型字面量
CONSTANT_Float_info	4	浮点型字面量
CONSTANT_Long_info	5	长整型字面量
CONSTANT_Doublie_info	6	双精度浮点型字面量
CONSTANT_Class_info	7	类或接口的符号引用
CONSTANT_String_info	8	字符串类型字面量
CONSTANT_Fieldref_info	9	字段的符号引用
CONSTANT_Methodref_info	10	类中方法的符号引用
CONSTANT_InterfaceMethodref_info	11	接口中方法的符号引用
CONSTANT_NameAndType_info	12	字段或方法的部分符号引用
CONSTANT_MethodHandle_info	15	表示方法句柄
CONSTANT_MethodType_info	16	标识方法类型
CONSTANT_InvokeDynamic_info	18	表示一个动态方法调用点

顺便提一下，由于Class文件中方法、字段等都需要引用CONSTANT_Utf8_info型常量来
描述名称，所以CONSTANT_Utf8_info型常量的最大长度也就是Java中方法、字段名的最大
长度。而这里的最大长度就是length的最大值，既u2类型能表达的最大值65535。所以Java程
序中如果定义了超过64KB英文字符的变量或方法名，将会无法编译。

####访问标志
在常量池结束之后，紧接着的两个字节代表访问标志（access_flags），这个标志用于识别一些类或者接口层次的访问信息，包括：这个Class是类还是接口；是否定义为public类型；是否定义为abstract类型；如果是类的话，是否被声明为final等。

####类索引、父类索引与接口索引集合
类索引（this_class）和父类索引（super_class）都是一个u2类型的数据，而接口索引集合（interfaces）是一组u2类型的数据的集合，Class文件中由这三项数据来确定这个类的继承关系。类索引用于确定这个类的全限定名，父类索引用于确定这个类的父类的全限定名。由于Java语言不允许多重继承，所以父类索引只有一个，除了java.lang.Object之外，所有的Java类都有父类，因此除了java.lang.Object外，所有Java类的父类索引都不为0。接口索引集合就用来描述这个类实现了哪些接口，这些被实现的接口将按implements语句（如果这个类本身是一个接口，则应当是extends语句）后的接口顺序从左到右排列在接口索引集合中。
类索引、父类索引和接口索引集合都按顺序排列在访问标志之后，类索引和父类索引用两个u2类型的索引值表示，它们各自指向一个类型为CONSTANT_Class_info的类描述符常量，通过CONSTANT_Class_info类型的常量中的索引值可以找到定义在CONSTANT_Utf8_info类型的常量中的全限定名字符串。

####字段表集合
字段表（field_info）用于描述接口或者类中声明的变量。字段（field）包括类级变量以及实例级变量，但不包括在方法内部声明的局部变量。
这里写图片描述
简单名称：简单名称是指没有类型和参数修饰的方法或者字段名称，这个类中的inc（）方法和m字段的简单名称分别是“inc”和“m”
全限定名：org/fenixsoft/clazz/TestClass
描述符：描述符是用来描述字段的数据类型、方法的参数列表（包括数量、类型以及顺序）和返回值。例如一个定义为“java.lang.String[][]”类型的二维数组，将被记录为：“[[Ljava/lang/String；”，一个整型数组“int[]”将被记录为“[I”。
结合访问标志、简单名称和描述符，我们可以得到一个字段的正确信息，比如“public String w”；
描述符标识字符含义：
这里写图片描述
####方法表集合
方法表结构与字段表相同，方法里的代码经过经过编译器编译成字节码指令后，存放在方法属性表集合中一个名为“Code”的属性里面。

在Java语言中，要重载（Overload）一个方法，除了要与原方法具有相同的简单名称之外，还要求必须拥有一个与原方法不同的特征签名[2]
，特征签名就是一个方法中各个参数在常量池中的字段符号引用的集合，也就是因为返回值不会包含在特征签名中，因此Java语言
里面是无法仅仅依靠返回值的不同来对一个已有方法进行重载的。但是在Class文件格式中，
特征签名的范围更大一些，只要描述符不是完全一致的两个方法也可以共存。也就是说，如
果两个方法有相同的名称和特征签名，但返回值不同，那么也是可以合法共存于同一个Class 文件中的。

####属性表集合
在Class文件、字段表、方法表都可以携带自己的属性表集合，以用于描述某些场景专有的信息。
属性表结构：
这里写图片描述
注意！对于每个属性，它的名称需要从常量池中引用一个CONSTANT_Utf8_info类型的常量来表示，而属性值的结构则是完全自定义的，只需要通过一个u4的长度属性去说明属性值所占用的位数即可
####code属性
Code属性出现在方法表的属性集合之中，但并非所有的方法表都必须存在这个属性，譬如接口或者抽象类中的方法就不存在Code属性。
code表结构：
这里写图片描述

attribute_name_index是一项指向CONSTANT_Utf8_info型常量的索引，常量值固定
为“Code”，它代表了该属性的属性名称，attribute_length指示了属性值的长度，由于属性名称
索引与属性长度一共为6字节，所以属性值的长度固定为整个属性表长度减去6个字节。 max_stack代表了操作数栈（Operand
Stacks）深度的最大值。在方法执行的任意时刻，操作数栈都不会超过这个深度。虚拟机运行的时候需要根据这个值来分配栈帧（Stack
Frame）中的操作栈深度。 max_locals代表了局部变量表所需的存储空间。在这里，max_locals的单位是Slot,Slot是
虚拟机为局部变量分配内存所使用的最小单位。对于byte、char、float、int、short、boolean
和returnAddress等长度不超过32位的数据类型，每个局部变量占用1个Slot，而double和long这
两种64位的数据类型则需要两个Slot来存放。方法参数（包括实例方法中的隐藏参数“this”）、显式异常处理器的参数（Exception
Handler Parameter，就是try-catch语句中catch
块所定义的异常）、方法体中定义的局部变量都需要使用局部变量表来存放。另外，并不是
在方法中用到了多少个局部变量，就把这些局部变量所占Slot之和作为max_locals的值，原因
是局部变量表中的Slot可以重用，当代码执行超出一个局部变量的作用域时，这个局部变量
所占的Slot可以被其他局部变量所使用，Javac编译器会根据变量的作用域来分配Slot给各个
变量使用，然后计算出max_locals的大小。
code_length和code用来存储Java源程序编译后生成的字节码指令。code_length代表字节码
长度，code是用于存储字节码指令的一系列字节流。既然叫字节码指令，那么每个指令就是
一个u1类型的单字节，当虚拟机读取到code中的一个字节码时，就可以对应找出这个字节码
代表的是什么指令，并且可以知道这条指令后面是否需要跟随参数，以及参数应当如何理
解。我们知道一个u1数据类型的取值范围为0x00～0xFF，对应十进制的0～255，也就是一共
可以表达256条指令，目前，Java虚拟机规范已经定义了其中约200条编码值对应的指令含
义，编码与指令之间的对应关系可查阅本书的附录B“虚拟机字节码指令表”。
关于code_length，有一件值得注意的事情，虽然它是一个u4类型的长度值，理论上最大
值可以达到232-1，但是虚拟机规范中明确限制了一个方法不允许超过65535条字节码指令，
即它实际只使用了u2的长度，如果超过这个限制，Javac编译器也会拒绝编译。一般来讲，编
写Java代码时只要不是刻意去编写一个超长的方法来为难编译器，是不太可能超过这个最大
值的限制。但是，某些特殊情况，例如在编译一个很复杂的JSP文件时，某些JSP编译器会把
JSP内容和页面输出的信息归并于一个方法之中，就可能因为方法生成字节码超长的原因而导致编译失败。
Code属性是Class文件中最重要的一个属性，如果把一个Java程序中的信息分为代码
（Code，方法体里面的Java代码）和元数据（Metadata，包括类、字段、方法定义及其他信
息）两部分，那么在整个Class文件中，Code属性用于描述代码，所有的其他数据项目都用
于描述元数据。了解Code属性是学习后面关于字节码执行引擎内容的必要基础，能直接阅读
字节码也是工作中分析Java代码语义问题的必要工具和基本技能，因此笔者准备了一个比较详细的实例来讲解虚拟机是如何使用这个属性的。
继续以代码清单6-1的TestClass.class文件为例，如图6-10所示，这是上一节分析过的实
例构造器“＜init＞”方法的Code属性。它的操作数栈的最大深度和本地变量表的容量都为
0x0001，字节码区域所占空间的长度为0x0005。虚拟机读取到字节码区域的长度后，按照顺
序依次读入紧随的5个字节，并根据字节码指令表翻译出所对应的字节码指令。翻译“2A B7 00 0A B1”的过程为：
1）读入2A，查表得0x2A对应的指令为aload_0，这个指令的含义是将第0个Slot中为
reference类型的本地变量推送到操作数栈顶。
2）读入B7，查表得0xB7对应的指令为invokespecial，这条指令的作用是以栈顶的
reference类型的数据所指向的对象作为方法接收者，调用此对象的实例构造器方法、private
方法或者它的父类的方法。这个方法有一个u2类型的参数说明具体调用哪一个方法，它指向
常量池中的一个CONSTANT_Methodref_info类型常量，即此方法的方法符号引用。
3）读入00 0A，这是invokespecial的参数，查常量池得0x000A对应的常量为实例构造器“＜init＞”方法的符号引用。
4）读入B1，查表得0xB1对应的指令为return，含义是返回此方法，并且返回值为void。这条指令执行后，当前方法结束。

这段字节码虽然很短，但是至少可以看出它的执行过程中的数据交换、方法调用等操作
都是基于栈（操作栈）的。我们可以初步猜测：Java虚拟机执行字节码是基于栈的体系结
构。但是与一般基于堆栈的零字节指令又不太一样，某些指令（如invokespecial）后面还会带有参数。

我们再次使用javap命令把此Class文件中的另外一个方法的字节码指令也计算出来：

//原始Java代码
public class TestClass{
private int m；
public int inc（）{
return m+1；
}
}
C：\＞javap-verbose TestClass
//常量表部分的输出见代码清单6-1，因版面原因这里省略掉
{
public org.fenixsoft.clazz.TestClass（）；
Code：
Stack=1，Locals=1，Args_size=1
0：aload_0
1：invokespecial#10；//Method java/lang/Object."＜init＞"：（）V
4：return
LineNumberTable：
line 3：0
LocalVariableTable：
Start Length Slot Name Signature
0 5 0 this Lorg/fenixsoft/clazz/TestClass；
public int inc（）；
Code：
Stack=2，Locals=1，Args_size=1
0：aload_0
1：getfield#18；//Field m：I
4：iconst_1
5：iadd
6：ireturn
LineNumberTable：
line 8：0
LocalVariableTable：
Start Length Slot Name Signature
0 7 0 this Lorg/fenixsoft/clazz/TestClass；
}

如果大家注意到javap中输出的“Args_size”的值，可能会有疑问：这个类有两个方法——
实例构造器＜init＞（）和inc（），这两个方法很明显都是没有参数的，为什么Args_size会
为1？而且无论是在参数列表里还是方法体内，都没有定义任何局部变量，那Locals又为什么
会等于1？如果有这样的疑问，大家可能是忽略了一点：在任何实例方法里面，都可以通
过“this”关键字访问到此方法所属的对象。这个访问机制对Java程序的编写很重要，而它的实
现却非常简单，仅仅是通过Javac编译器编译的时候把对this关键字的访问转变为对一个普通
方法参数的访问，然后在虚拟机调用实例方法时自动传入此参数而已。因此在实例方法的局
部变量表中至少会存在一个指向当前对象实例的局部变量，局部变量表中也会预留出第一个
Slot位来存放对象实例的引用，方法参数值从1开始计算。这个处理只对实例方法有效，如果
代码清单6-1中的inc（）方法声明为static，那Args_size就不会等于1而是等于0了。
在字节码指令之后的是这个方法的显式异常处理表（下文简称异常表）集合，异常表对
于Code属性来说并不是必须存在的，如代码清单6-4中就没有异常表生成。
异常表的格式如表6-16所示，它包含4个字段，这些字段的含义为：如果当字节码在第 start_pc行[1]
到第end_pc行之间（不含第end_pc行）出现了类型为catch_type或者其子类的异常
（catch_type为指向一个CONSTANT_Class_info型常量的索引），则转到第handler_pc行继续
处理。当catch_type的值为0时，代表任意异常情况都需要转向到handler_pc处进行处理。

这里写图片描述

异常表实际上是Java代码的一部分，编译器使用异常表而不是简单的跳转命令来实现 Java异常及finally处理机制[2] 。
代码清单6-5是一段演示异常表如何运作的例子，这段代码主要演示了在字节码层面中
try-catch-finally是如何实现的。在阅读字节码之前，大家不妨先看看下面的Java源码，想一下
这段代码的返回值在出现异常和不出现异常的情况下分别应该是多少

//Java源码
public int inc（）{
int x；
try{
x=1；
return x；
}catch（Exception e）{
x=2；
return x；
}finally{
x=3；
}
}
//编译后的ByteCode字节码及异常表
public int inc（）；
Code：
Stack=1，Locals=5，Args_size=1
0：iconst_1//try块中的x=1
1：istore_1
2：iload_1//保存x到returnValue中，此时x=1
3：istore 4
5：iconst_3//finaly块中的x=3
6：istore_1
7：iload 4//将returnValue中的值放到栈顶，准备给ireturn返回
9：ireturn
10：astore_2//给catch中定义的Exception e赋值，存储在Slot 2中
11：iconst_2//catch块中的x=2
12：istore_1
13：iload_1//保存x到returnValue中，此时x=2
14：istore 4
16：iconst_3//finaly块中的x=3
17：istore_1
18：iload 4//将returnValue中的值放到栈顶，准备给ireturn返回
20：ireturn
21：astore_3//如果出现了不属于java.lang.Exception及其子类的异常才会走到这里
22：iconst_3//finaly块中的x=3
23：istore_1
24：aload_3//将异常放置到栈顶，并抛出
25：athrow
Exception table：
from to target type
0 5 10 Class java/lang/Exception
0 5 21 any
10 16 21 any

编译器为这段Java源码生成了3条异常表记录，对应3条可能出现的代码执行路径。从 Java代码的语义上讲，这3条执行路径分别为：
如果try语句块中出现属于Exception或其子类的异常，则转到catch语句块处理。
如果try语句块中出现不属于Exception或其子类的异常，则转到finally语句块处理。
如果catch语句块中出现任何异常，则转到finally语句块处理。
返回到我们上面提出的问题，这段代码的返回值应该是多少？对Java语言熟悉的读者应
该很容易说出答案：如果没有出现异常，返回值是1；如果出现了Exception异常，返回值是
2；如果出现了Exception以外的异常，方法非正常退出，没有返回值。我们一起来分析一下
字节码的执行过程，从字节码的层面上看看为何会有这样的返回结果。
字节码中第0～4行所做的操作就是将整数1赋值给变量x，并且将此时x的值复制一份副
本到最后一个本地变量表的Slot中（这个Slot里面的值在ireturn指令执行前将会被重新读到操
作栈顶，作为方法返回值使用。为了讲解方便，笔者给这个Slot起了个名字：returnValue）。
如果这时没有出现异常，则会继续走到第5～9行，将变量x赋值为3，然后将之前保存在
returnValue中的整数1读入到操作栈顶，最后ireturn指令会以int形式返回操作栈顶中的值，方
法结束。如果出现了异常，PC寄存器指针转到第10行，第10～20行所做的事情是将2赋值给
变量x，然后将变量x此时的值赋给returnValue，最后再将变量x的值改为3。方法返回前同样
将returnValue中保留的整数2读到了操作栈顶。从第21行开始的代码，作用是变量x的值赋为 3，并将栈顶的异常抛出，方法结束。
尽管大家都知道这段代码出现异常的概率非常小，但并不影响它为我们演示异常表的作
用。如果大家到这里仍然对字节码的运作过程比较模糊，其实也不要紧，关于虚拟机执行字节码的过程，本书第8章中将会有更详细的讲解。

####Exceptions属性
代表着Throw的异常

####其他属性（日后补充）

###JAVA字节码指令
Java虚拟机的指令由一个字节长度的、代表着某种特定操作含义的数字（称为操作码，Opcode）以及跟随其后的零至多个代表此操作所需参数（称为操作数，Operands）而构成。由于Java虚拟机采用面向操作数栈而不是寄存器的架构，所以大多数的指令都不包含操作数，只有一个操作码。
如果不考虑异常处理的话，那么Java虚拟机的解释器可以使用下面这个伪代码当做最基
本的执行模型来理解：

do{
自动计算PC寄存器的值加1；
根据PC寄存器的指示位置，从字节码流中取出操作码；
if（字节码存在操作数）从字节码流中取出操作数；
执行操作码所定义的操作；
}while（字节码流长度＞0）；

在Java虚拟机的指令集中，大多数的指令都包含了其操作所对应的数据类型信息。不是对每一种类型都支持所有操作，
大部分的指令都没有支持整数类型byte、char和short，甚至没有任何指令支持boolean类型。编译器会在编译期或运行期将byte和short类型的数据带符号扩展（Sign-Extend）为相应的int类型数据，将boolean和char类型数据零位扩展（ZeroExtend）为相应的int类型数据。与之类似，在处理boolean、byte、short和char类型的数组时，也会转换为使用对应的int类型的字节码指令来处理。因此，大多数对于boolean、byte、short和char类型数据的操作，实际上都是使用相应的int类型作为运算类型（ComputationalType）

######加载和存储指令
加载和存储指令用于将数据在栈帧中的局部变量表和操作数栈之间来回传输

####JAVA虚拟机加载机制
####JAVA类的生命周期：
类从被加载到虚拟机内存中开始，到卸载出内存为止，它的整个生命周期包括：加载（Loading）、验证（Verification）、准备（Preparation）、解析（Resolution）、初始化（Initialization）、使用（Using）和卸载（Unloading）7个阶段。其中验证、准备、解析3个部分统称为连接（Linking）：这里写图片描述

加载、验证、准备、初始化和卸载这5个阶段的顺序是确定的，类的加载过程
必须按照这种顺序按部就班地开始，而解析阶段则不一定：它在某些情况下可以在初始化阶
段之后再开始，这是为了支持Java语言的运行时绑定（也称为动态绑定或晚期绑定）。注
意，这里笔者写的是按部就班地“开始”，而不是按部就班地“进行”或“完成”，强调这点是因
为这些阶段通常都是互相交叉地混合式进行的，通常会在一个阶段执行的过程中调用、激活
另外一个阶段。

什么情况下需要开始类加载过程的第一个阶段：加载？Java虚拟机规范中并没有进行强制约束，这点可以交给虚拟机的具体实现来自由把握。但是对于初始化阶段，虚拟机规范则是严格规定了有且只有5种情况必须立即对类进行“初始化”（而加载、验证、准备自然需要在此之前开始）：
1）遇到new、getstatic、putstatic或invokestatic这4条字节码指令时，如果类没有进行过初始化，则需要先触发其初始化。生成这4条指令的最常见的Java代码场景是：使用new关键字实例化对象的时候、读取或设置一个类的静态字段（被final修饰、已在编译期把结果放入常量池的静态字段除外）的时候，以及调用一个类的静态方法的时候。
2）使用java.lang.reflect包的方法对类进行反射调用的时候，如果类没有进行过初始化，则需要先触发其初始化。
3）当初始化一个类的时候，如果发现其父类还没有进行过初始化，则需要先触发其父类的初始化。（当一个类在初始化时，要求其父类全部都已经初始化过了，但是一个接口在初始化时，并不要求其父接口全部都完成了初始化，只有在真正使用到父接口的时候（如引用接口中定义的常量）才会初始化。）
4）当虚拟机启动时，用户需要指定一个要执行的主类（包含main（）方法的那个类），虚拟机会先初始化这个主类。
5）当使用JDK 1.7的动态语言支持时，如果一个java.lang.invoke.MethodHandle实例最后的解析结果REF_getStatic、REF_putStatic、REF_invokeStatic的方法句柄，并且这个方法句柄所对应的类没有进行过初始化，则需要先触发其初始化

####类加载的过程
######加载
在加载阶段，虚拟机需要完成以下3件事情：
1）通过一个类的全限定名来获取定义此类的二进制字节流。
2）将这个字节流所代表的静态存储结构转化为方法区的运行时数据结构。
3）在内存中生成一个代表这个类的java.lang.Class对象，作为方法区这个类的各种数据的访问入口。

数组类本身不通过类加载器创建，由java虚拟机直接创建；而数组类的元素类型要考加载器去创建。

加载阶段完成后，虚拟机外部的二进制字节流就按照虚拟机所需的格式存储在方法区之中，方法区中的数据存储格式由虚拟机实现自行定义，虚拟机规范未规定此区域的具体数据结构。然后在内存中实例化一个java.lang.Class类的对象（并没有明确规定是在Java堆中，对于HotSpot虚拟机而言，Class对象比较特殊，它虽然是对象，但是存放在方法区里面），这个对象将作为程序访问方法区中的这些类型数据的外部接口。加载阶段与连接阶段的部分内容（如一部分字节码文件格式验证动作）是交叉进行的，加载阶段尚未完成，连接阶段可能已经开始，但这些夹在加载阶段之中进行的动作，仍然属于连接阶段的内容，这两个阶段的开始时间仍然保持着固定的先后顺序。

######验证
验证是连接阶段的第一步，这一阶段的目的是为了确保Class文件的字节流中包含的信息符合当前虚拟机的要求，并且不会危害虚拟机自身的安全。
验证阶段大致上会完成下面4个阶段的检验动作：文件格式验证、元数据验证、字节码验证、符号引用验证。

文件格式验证：验证字节流是否符合Class文件格式的规范
元数据验证：对字节码描述的信息进行语义分析，以保证其描述的信息符合Java语言规范的要求
字节码验证：第三阶段是整个验证过程中最复杂的一个阶段，主要目的是通过数据流和控制流分析，确定程序语义是合法的、符合逻辑的。在第二阶段对元数据信息中的数据类型做完校验后，这个阶段将对类的方法体进行校验分析，保证被校验类的方法在运行时不会做出危害虚拟机安全的事件
符号引用验证：最后一个阶段的校验发生在虚拟机将符号引用转化为直接引用的时候，这个转化动作将
在连接的第三阶段——解析阶段中发生。符号引用验证可以看做是对类自身以外（常量池中
的各种符号引用）的信息进行匹配性校验，通常需要校验下列内容：
符号引用中通过字符串描述的全限定名是否能找到对应的类。
在指定类中是否存在符合方法的字段描述符以及简单名称所描述的方法和字段。
符号引用中的类、字段、方法的访问性（private、protected、public、default）是否可被
当前类访问。

对于虚拟机的类加载机制来说，验证阶段是一个非常重要的、但不是一定必要（因为对程序运行期没有影响）的阶段。如果所运行的全部代码（包括自己编写的及第三方包中的代码）都已经被反复使用和验证过，那么在实施阶段就可以考虑使用-Xverify：none参数来关闭大部分的类验证措施，以缩短虚拟机类加载的时间。

######准备
准备阶段是正式为类变量分配内存并设置类变量初始值的阶段，这些变量所使用的内存都将在方法区中进行分配。这个阶段中有两个容易产生混淆的概念需要强调一下，首先，这时候进行内存分配的仅包括类变量（被static修饰的变量），而不包括实例变量，实例变量将会在对象实例化时随着对象一起分配在Java堆中。其次，这里所说的初始值“通常情况”下是数据类型的零值，假设一个类变量的定义为：
public static int value=123；
那变量value在准备阶段过后的初始值为0而不是123，因为这时候尚未开始执行任何Java方法，而把value赋值为123的putstatic指令是程序被编译后，存放于类构造器＜clinit＞（）方法之中，所以把value赋值为123的动作将在初始化阶段才会执行。

基本数据类型的零值：
这里写图片描述
######解析
解析阶段是虚拟机将常量池内的符号引用替换为直接引用的过程
符号引用（Symbolic References）：符号引用以一组符号来描述所引用的目标，符号可以是任何形式的字面量，只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关，引用的目标并不一定已经加载到内存中。各种虚拟机实现的内存布局可以各不相同，但是它们能接受的符号引用必须都是一致的，因为符号引用的字面量形式明确定义在Java虚拟机规范的Class文件格式中。
直接引用（Direct References）：直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用是和虚拟机实现的内存布局相关的，同一个符号引用在不同虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用，那引用的目标必定已经在内存中存在。
虚拟机规范之中并未规定解析阶段发生的具体时间，只要求了在执行anewarray、checkcast、getfield、getstatic、instanceof、invokedynamic、invokeinterface、invokespecial、invokestatic、invokevirtual、ldc、ldc_w、multianewarray、new、putfield和putstatic这16个用于操作符号引用的字节码指令之前，先对它们所使用的符号引用进行解析。所以虚拟机实现可以根据需要来判断到底是在类被加载器加载时就对常量池中的符号引用进行解析，还是等到一个符号引用将要被使用前才去解析它。
对同一个符号引用进行多次解析请求是很常见的事情，除invokedynamic指令以外，虚拟机实现可以对第一次解析的结果进行缓存（在运行时常量池中记录直接引用，并把常量标识为已解析状态）从而避免解析动作重复进行。
对于invokedynamic指令，上面规则则不成立。当碰到某个前面已经由invokedynamic指令触发过解析的符号引用时，并不意味着这个解析结果对于其他invokedynamic指令也同样生效。因为invokedynamic指令的目的本来就是用于动态语言支持（目前仅使用Java语言不会生成这条字节码指令），它所对应的引用称为“动态调用点限定符”（Dynamic Call SiteSpecifier），这里“动态”的含义就是必须等到程序实际运行到这条指令的时候，解析动作才能进行。相对的，其余可触发解析的指令都是“静态”的，可以在刚刚完成加载阶段，还没有开始执行代码时就进行解析。
解析动作主要针对类或接口、字段、类方法、接口方法、方法类型、方法句柄和调用点限定符7类符号引用进行，分别对应于常量池的CONSTANT_Class_info、CONSTANT_Fieldref_info、CONSTANT_Methodref_info、CONSTANT_InterfaceMethodref_info、CONSTANT_MethodType_info、CONSTANT_MethodHandle_info和CONSTANT_InvokeDynamic_info 7种常量类型。
1.类或接口的解析
假设当前代码所处的类为D，如果要把一个从未解析过的符号引用N解析为一个类或接口C的直接引用，那虚拟机完成整个解析的过程需要以下3个步骤：
1）如果C不是一个数组类型，那虚拟机将会把代表N的全限定名传递给D的类加载器去加载这个类C。在加载过程中，由于元数据验证、字节码验证的需要，又可能触发其他相关类的加载动作，例如加载这个类的父类或实现的接口。一旦这个加载过程出现了任何异常，解析过程就宣告失败。
2）如果C是一个数组类型，并且数组的元素类型为对象，也就是N的描述符会是类似“[Ljava/lang/Integer”的形式，那将会按照第1点的规则加载数组元素类型。如果N的描述符如前面所假设的形式，需要加载的元素类型就是“java.lang.Integer”，接着由虚拟机生成一个代表此数组维度和元素的数组对象。
3）如果上面的步骤没有出现任何异常，那么C在虚拟机中实际上已经成为一个有效的类或接口了，但在解析完成之前还要进行符号引用验证，确认D是否具备对C的访问权限。如果发现不具备访问权限，将抛出java.lang.IllegalAccessError异常。

2.字段解析
要解析一个未被解析过的字段符号引用，首先将会对字段表内class_index项中索引的CONSTANT_Class_info符号引用进行解析，也就是字段所属的类或接口的符号引用。如果在解析这个类或接口符号引用的过程中出现了任何异常，都会导致字段符号引用解析的失败。如果解析成功完成，那将这个字段所属的类或接口用C表示，虚拟机规范要求按照如下步骤对C进行后续字段的搜索。
1）如果C本身就包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
2）否则，如果在C中实现了接口，将会按照继承关系从下往上递归搜索各个接口和它的父接口，如果接口中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
3）否则，如果C不是java.lang.Object的话，将会按照继承关系从下往上递归搜索其父类，如果在父类中包含了简单名称和字段描述符都与目标相匹配的字段，则返回这个字段的直接引用，查找结束。
4）否则，查找失败，抛出java.lang.NoSuchFieldError异常。
如果查找过程成功返回了引用，将会对这个字段进行权限验证，如果发现不具备对字段
的访问权限，将抛出java.lang.IllegalAccessError异常。

3.类方法解析
类方法解析的第一个步骤与字段解析一样，也需要先解析出类方法表的class_index项中索引的方法所属的类或接口的符号引用，如果解析成功，我们依然用C表示这个类，接下来虚拟机将会按照如下步骤进行后续的类方法搜索。
1）类方法和接口方法符号引用的常量类型定义是分开的，如果在类方法表中发现class_index中索引的C是个接口，那就直接抛出java.lang.IncompatibleClassChangeError异常。
2）如果通过了第1步，在类C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
3）否则，在类C的父类中递归查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
4）否则，在类C实现的接口列表及它们的父接口之中递归查找是否有简单名称和描述符都与目标相匹配的方法，如果存在匹配的方法，说明类C是一个抽象类，这时查找结束，抛出java.lang.AbstractMethodError异常。
5）否则，宣告方法查找失败，抛出java.lang.NoSuchMethodError。
最后，如果查找过程成功返回了直接引用，将会对这个方法进行权限验证，如果发现不具备对此方法的访问权限，将抛出java.lang.IllegalAccessError异常。

4.接口方法解析
接口方法也需要先解析出接口方法表的class_index项中索引的方法所属的类或接口的符号引用，如果解析成功，依然用C表示这个接口，接下来虚拟机将会按照如下步骤进行后续的接口方法搜索。
1）与类方法解析不同，如果在接口方法表中发现class_index中的索引C是个类而不是接口，那就直接抛出java.lang.IncompatibleClassChangeError异常。
2）否则，在接口C中查找是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
3）否则，在接口C的父接口中递归查找，直到java.lang.Object类（查找范围会包括Object类）为止，看是否有简单名称和描述符都与目标相匹配的方法，如果有则返回这个方法的直接引用，查找结束。
4）否则，宣告方法查找失败，抛出java.lang.NoSuchMethodError异常。由于接口中的所有方法默认都是public的，所以不存在访问权限的问题，因此接口方法的符号解析应当不会抛出java.lang.IllegalAccessError异常。

######初始化
类初始化阶段是类加载过程的最后一步，前面的类加载过程中，除了在加载阶段用户应用程序可以通过自定义类加载器参与之外，其余动作完全由虚拟机主导和控制。到了初始化阶段，才真正开始执行类中定义的Java程序代码（或者说是字节码）。
在准备阶段，变量已经赋过一次系统要求的初始值，而在初始化阶段，则根据程序员通过程序制定的主观计划去初始化类变量和其他资源，或者可以从另外一个角度来表达：初始化阶段是执行类构造器＜clinit＞（）方法的过程。我们在下文会讲解＜clinit＞（）方法是怎么生成的，在这里，我们先看一下＜clinit＞（）方法执行过程中一些可能会影响程序运行行为的特点和细节，这部分相对更贴近于普通的程序开发人员。
＜clinit＞（）方法是由编译器自动收集类中的所有类变量的赋值动作和静态语句块（static{}块）中的语句合并产生的，编译器收集的顺序是由语句在源文件中出现的顺序所决定的，静态语句块中只能访问到定义在静态语句块之前的变量，定义在它之后的变量，在前面的静态语句块可以赋值，但是不能访问。

public class Test{
static{
i=0；//给变量赋值可以正常编译通过
System.out.print（i）；//这句编译器会提示"非法向前引用"
}
static int i=1；
}

＜clinit＞（）方法与类的构造函数（或者说实例构造器＜init＞（）方法）不同，它不需要显式地调用父类构造器，虚拟机会保证在子类的＜clinit＞（）方法执行之前，父类的＜clinit＞（）方法已经执行完毕。因此在虚拟机中第一个被执行的＜clinit＞（）方法的类肯定是java.lang.Object。

＜clinit＞（）方法对于类或接口来说并不是必需的，如果一个类中没有静态语句块，也没有对变量的赋值操作，那么编译器可以不为这个类生成＜clinit＞（）方法。
接口中不能使用静态语句块，但仍然有变量初始化的赋值操作，因此接口与类一样都会生成＜clinit＞（）方法。但接口与类不同的是，执行接口的＜clinit＞（）方法不需要先执行父接口的＜clinit＞（）方法。只有当父接口中定义的变量使用时，父接口才会初始化。另外，接口的实现类在初始化时也一样不会执行接口的＜clinit＞（）方法。
虚拟机会保证一个类的＜clinit＞（）方法在多线程环境中被正确地加锁、同步，如果多个线程同时去初始化一个类，那么只会有一个线程去执行这个类的＜clinit＞（）方法，其他线程都需要阻塞等待，直到活动线程执行＜clinit＞（）方法完毕。如果在一个类的＜clinit＞（）方法中有耗时很长的操作，就可能造成多个进程阻塞，在实际应用中这种阻塞往往是
很隐蔽的。如下：

static class DeadLoopClass{
static{
/*如果不加上这个if语句，编译器将提示"Initializer does not complete normally"并拒绝编译*/
if（true）{
System.out.println（Thread.currentThread（）+"init DeadLoopClass"）；
while（true）{
}
}
}
}
public static void main（String[]args）{
Runnable script=new Runnable（）{
public void run（）{
System.out.println（Thread.currentThread（）+"start"）；
DeadLoopClass dlc=new DeadLoopClass（）；
System.out.println（Thread.currentThread（）+"run over"）；
}
}；
Thread thread1=new Thread（script）；
Thread thread2=new Thread（script）；
thread1.start（）；
thread2.start（）；
}

####类加载器
虚拟机设计团队把类加载阶段中的“通过一个类的全限定名来获取描述此类的二进制字节流”这个动作放到Java虚拟机外部去实现，以便让应用程序自己决定如何去获取所需要的类。实现这个动作的代码模块称为“类加载器”。

类加载器虽然只用于实现类的加载动作，但它在Java程序中起到的作用却远远不限于类加载阶段。对于任意一个类，都需要由加载它的类加载器和这个类本身一同确立其在Java虚拟机中的唯一性，每一个类加载器，都拥有一个独立的类名称空间。这句话可以表达得更通俗一些：比较两个类是否“相等”，只有在这两个类是由同一个类加载器加载的前提下才有意义，否则，即使这两个类来源于同一个Class文件，被同一个虚拟机加载，只要加载它们的类加载器不同，那这两个类就必定不相等。

/**
*类加载器与instanceof关键字演示
*
*@author zzm
*/
public class ClassLoaderTest{
public static void main（String[]args）throws Exception{
ClassLoader myLoader=new ClassLoader（）{
@Override
public Class＜?＞loadClass（String name）throws ClassNotFoundException{
try{
String fileName=name.substring（name.lastIndexOf（"."）+1）+".class"；
InputStream is=getClass（）.getResourceAsStream（fileName）；
if（is==null）{
return super.loadClass（name）；
}
byte[]b=new byte[is.available（）]；
is.read（b）；
return defineClass（name,b，0，b.length）；
}catch（IOException e）{
throw new ClassNotFoundException（name）；
}
}
}；
Object obj=myLoader.loadClass（"org.fenixsoft.classloading.ClassLoaderTest"）.newInstance（）；
System.out.println（obj.getClass（））；
System.out.println（obj instanceof org.fenixsoft.classloading.ClassLoaderTest）；
}
}

####双亲委派模型
从Java虚拟机的角度来讲，只存在两种不同的类加载器：一种是启动类加载器（Bootstrap ClassLoader），这个类加载器使用C++语言实现[1]，是虚拟机自身的一部分；另一种就是所有其他的类加载器，这些类加载器都由Java语言实现，独立于虚拟机外部，并且全都继承自抽象类java.lang.ClassLoader。
从Java开发人员的角度来看，类加载器还可以划分得更细致一些，绝大部分Java程序都会使用到以下3种系统提供的类加载器。
1）启动类加载器（Bootstrap ClassLoader）这个类将器负责将存放在＜JAVA_HOME＞\lib目录中的，或者被-Xbootclasspath参数所指定的路径中的，并且是虚拟机识别的（仅按照文件名识别，如rt.jar，名字不符合的类库即使放在lib目录中也不会被加载）类库加载到虚拟机内存中。启动类加载器无法被Java程序直接引用，用户在编写自定义类加载器时，如果需要把加载请求委派给引导类加载器，那直接使用null代替即可
2）扩展类加载器（Extension ClassLoader）这个加载器由sun.misc.Launcher$ExtClassLoader实现，它负责加载JAVA_HOME＞\lib\ext目录中的，或者被java.ext.dirs系统变量所指定的路径中的所有类库，开发者可以直接使用扩展类加载器。

3）应用程序类加载器（Application ClassLoader）：这个类加载器由sun.misc.Launcher $AppClassLoader实现。由于这个类加载器是ClassLoader中的getSystemClassLoader（）方法的返回值，所以一般也称它为系统类加载器。它负责加载用户类路径（ClassPath）上所指定的类库，开发者可以直接使用这个类加载器，如果应用程序中没有自定义过自己的类加载器，一般情况下这个就是程序中默认的类加载器。

这里写图片描述
双亲委派模型要求除了顶层的启动类加载器外，其余的类加载器都应当有自己的父类加载器。这里类加载器之间的父子关系一般不会以继承（Inheritance）的关系来实现，而是都使用组合（Composition）关系来复用父加载器的代码。
双亲委派模型的工作过程是：如果一个类加载器收到了类加载的请求，它首先不会自己去尝试加载这个类，而是把这个请求委派给父类加载器去完成，每一个层次的类加载器都是如此，因此所有的加载请求最终都应该传送到顶层的启动类加载器中，只有当父加载器反馈自己无法完成这个加载请求（它的搜索范围中没有找到所需的类）时，子加载器才会尝试自己去加载。

使用双亲委派模型来组织类加载器之间的关系，有一个显而易见的好处就是Java类随着它的类加载器一起具备了一种带有优先级的层次关系。例如类java.lang.Object，它存放在rt.jar之中，无论哪一个类加载器要加载这个类，最终都是委派给处于模型最顶端的启动类加载器进行加载，因此Object类在程序的各种类加载器环境中都是同一个类。相反，如果没有使用双亲委派模型，由各个类加载器自行去加载的话，如果用户自己编写了一个称为java.lang.Object的类，并放在程序的ClassPath中，那系统中将会出现多个不同的Object类，Java类型体系中最基础的行为也就无法保证，应用程序也将会变得一片混乱。

先检查是否已经被加载过，若没有加载则调用父加载器的loadClass（）方法，若父加载器为空则默认使用启动类加载器作为父加载器。如果父类加载失败，抛出ClassNotFoundException异常后，再调用自己的findClass（）方法进行加载。

protected synchronized Class＜?＞loadClass（String name,boolean resolve）throws ClassNotFoundException
{
//首先，检查请求的类是否已经被加载过了
Class c=findLoadedClass（name）；
if（c==null）{
try{
if（parent！=null）{
c=parent.loadClass（name,false）；
}else{
c=findBootstrapClassOrNull（name）；
}
}catch（ClassNotFoundException e）{
//如果父类加载器抛出ClassNotFoundException
//说明父类加载器无法完成加载请求
}
if（c==null）{
//在父类加载器无法加载的时候
//再调用本身的findClass方法来进行类加载
c=findClass（name）；
}
}
if（resolve）{
resolveClass（c）；
}
return c；
}

Vivinoo

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Java类文件结构及其加载

Class类文件的结构Class文件是一组以8位字节为基础的二进制流，其中包含了两种数据类型：无符号数和表。无符号数属于基本的数据类型，以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数，无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。表是由多个无符号数或者其他表作为数据项结构构成的复合数据类型，所有表都习惯性地以”_inf...
复制链接

扫一扫