JVM中class文件分析

1、Class类文件的结构
Class文件是一组以8位字节为基础单位的二进制流,各项数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,如果是超过8位字节以上空间的数据项,则会按照高位在前的方式分割成若干个8位字节进行存储。
Class采用结构体存储数据,有两种数据类型:无符号数和表。

无符号数属于基本的数据类型,以u1,u2,u4,u8来分别代表1个字节,2个字节,4个字节和8个字节的无符号数;可用来描述数字,索引引用,数量值或者按照UTF-8编码构成的字符串值。

表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述由层次关系的复合结构的数据,整个Class文件本质上就是一张表。

Class文件格式:

使用notepad++打开Class文件
在这里插入图片描述
1.1 、 魔数与Class文件的版本
每个Class文件的头4个字节成为魔数(Magic Number),它唯一的作用是确定这个文件是否为一个能被虚拟机接受的Class文件。值为:0xCAFEBABE(咖啡宝贝),所有Class文件都一样,当Class文件的前4个字节的值为0xCAFEBABE时,代表此文件是一个Class文件,Java虚拟机便可读取此文件。
紧接着魔数的4个字节是Class文件的版本号:第5,6字节是次版本号(Minor Version),第7,8字节是主版本号(Major Version)。
其中jdk1.7版本号为51.0,jdk1.8版本为52.0
在这里插入图片描述
1.2、常量池
在魔数和版本号后,紧接着主次版本号之后是常量池入口,由于常量池中常量的数量是不固定的,所以在常量池的入口需要放置一个常量池容量计数值(constant_pool_count),这个容量计数是从1而不是0开始的,设计者这样设计的目的是为了满足后面某些指向常量池的索引值的数据在特殊情况下需要表达“不引用任何一个常量池项目”的含义。Class文件结构中只有常量池的容量计数是从1开始的,索引集合、字段集合、方法集合、属性集合的容量计数都是从0开始的。
常量池中主要存放两大类常量:字面量(Literal)和符号引用。
字面量接近Java语言层面的常量概念,如文本字符串、声明为final的常量值等。
符号引用属于编译原理的概念,包括三类常量:
1,类和接口的全限定名:org.springframework…Bean
2,字段的名称和描述符:private/public/protected
3,方法的名称和描述符:private/public/protected
常量池中每一项常量都是一个表,在JDK1.7之后共有14种表结构,它们有一个共同的特点,就是表开始的第一位是一个u1类型的标志位(tag,取值见下表),代表当前这个常量属于哪种常量类型。

常量池项目类型

在这里插入图片描述
常量池中14中常量类型都有自己的结构,常量池中的14种常量项的结构表:
在这里插入图片描述
解释说明:

以CONSTANT_Class_info和CONSTANT_Utf8_info为例说明,
对于一个CONSTANT_Class_info包含3个字节,其中u1为7表示该表为一个CONSTANT_Class_info常量,u2为name_index为一个数值,该数值指向常量池中的一个CONSTANT_Utf8_info类型常量(该值是多少就指向常量池中第几个常量),此常量代表这个类的全限定名。

tag : 7
name_index : 常量池索引(如 2),指向常量池中第2个常量

对于一个CONSTANT_Utf8_info包含(3+length)个字节,其中第一个字节u1为1表示该表为一个CONSTANT_Utf8_info常量,第2和第3个字节u2为length,表明接下来包含多少个u1,之后会接length个字节的连续数据是一个使用UTF-8缩略编码表示的字符串。
u2为2个字节,最大值为65535,因此最多有65535个字节来存储类名,如果定义了超过64KB(64x1024=65536)就无法编译。
例如:
tag : 1
length : length(如 23)
bytes : length个字节,存储信息

1.3、访问标志
在常量池结束之后,紧接着的两个字节代表访问标志(access_flags),用于识别一些类或者接口层次的访问信息,包括:这个Class是类还是接口、是否为public类型、是否为abstract类型、类是否声明为final等。
在这里插入图片描述
access_flags中一共有16个标志位可以使用,当前只定义了其中8个,没用使用到的标志位要求一律为0。 access_flages的值即为类满足上表中的值做或运算得到的值。
一个J普通ava类,不是接口、枚举或注解,被public修饰但没有被声明为final和abstract,在JDK1.2之后的编译器编译后对应的access_flags为0021。

1.4、类索引、父类索引与接口索引集合

类索引、父类索引与接口索引集合都按顺序排列在访问标志后。
Class文件中由这三项数据来确定这个类的继承关系。类索引和父类索引用两个u2类型的索引值表示,类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。接口索引集合用来描述这个类实现了哪些接口。
接口索引集合入口第一项是u2类型的接口计数器(interfaces_count)表示索引表的容量(即实现了几个接口)。如果该类没用实现任何接口,则计数器值为0,后面的接口索引表不再占用任何字节。
在这里插入图片描述
1.5、字段表集合
排在接口索引集合后边的是字段计数器:用于标识有多少个字段;接着就是字段表集合。字段表(field_info)用于描述接口或者类中声明的变量。
字段包括类级变量以及实例级变量。可以包括的信息有:
1、字段的作用域(public、private、protected修饰符)
2、实例变量还是类变量(static修饰符)
3、可变性(final)
4、并发可见性(volatile)
5、可否被序列化(transient)
6、字段数据类型(基本类型,对象,数组)
7、字段名称

字段表结构:
在这里插入图片描述
字段修饰符放在access_flags项目中,它与类中的access_flags项目非常相似,都是一个u2的数据类型,可以设值的标志位和含义见下表
在这里插入图片描述
字段表中name_index和descriptor_index都是对常量池的引用,分别代表字段的简单名称以及字段和方法的描述符。
描述符用来描述字段的数据类型、方法的参数列表(输了、类型以及顺序)和返回值。根据描述符的规则,基本数据类型以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名表示,见下表
描述符标识字符含义:
在这里插入图片描述
对于数组类型,每一维度将使用一个前置的“[”字符来描述,如“String[][]”,会被记录为"[[Ljava/lang/String","int[]"被记录为“[I”。

描述符描述方法时,按照先参数列表,后返回值的顺序描述。参数列表按照参数的严格顺序放置一组小括号“()”内,如void inc()的描述符为“()V”,“viod main(String[] args)”的描述符为“([Ljava/lang/String;)V”,“int indexOf(char[] source,int sourceOffset,int sourceCount,char[] target,int targetOffset,int targetCount,int fromIndex)”的描述符为“([CII[CIII)I”。

字段表都包含的固定数据项到descriptor_index为止就结束了,不过在descriptor_index之后跟随着一个属性表集合用于存储一些额外的信息,字段都可以在属性表中描述零至多项的额外信息。有关属性表的介绍会在后边具体讲解。

字段表集合中不会列出从超类或者父类接口中继承而来的字段,但有可能列出原本Java代码之中不存在的字段。

1.6、方法表集合
跟在字段表集合后的是方法计算器:用于标识有多少个方法;紧接着的就是方法表集合。
Class文件存储格式中对方法的描述与对字段的描述几乎采用完全一致的方式。
方法表结构:
在这里插入图片描述
在这里插入图片描述
通过访问标志、名称索引、描述符索引可清楚的表达方法的定义。那方法里面的代码去哪里了呢?方法里的Java代码经过编译器编译成字节码指令后,存放在方法属性表集合中属性表中;这个属性表的名称为“Code”。属性表是Class文件格式中最具扩展性的一种数据项目,将在下边讲解。

与字段表集合相对应的,如果父类方法在子类中没有被重写(Override),方法表集合中就不会出现来自父类的方法信息,但可能出现编译器自动添加的方法,最典型的便是类构造器“< clinit >”方法和实例构造器"< init >"方法

在Java语言中,重载(Overload)一个方法,1、要与原方法具有相同的简单名称。2、要与原方法有不同的特征签名。Java代码的方法特征签名只包括方法名称、参数顺序及参数类型;而字节码的特征签名还包括方法返回值以及受查异常表。

1.7、属性表集合
属性表(attribute_info)在前面的讲解中已经出现多次,在Class文件、字段表、方法表、属性表都可以携带自己的属性表集合,用于描述某些场景专有的信息。与Class文件中其他的数据项目要求严格的顺序、长度和内容不同,属性表集合的限制稍微宽松了一些,不再要求各个属性表具有严格顺序,并且只要不与已有属性名重复,任何人实现的编译器都可以想属性表中写入自己定义的属性信息,Java虚拟机运行时会忽略掉它不认识的属性。最新的《Java虚拟机规范(Java SE 7)》版中,属性项已经增加到21项。下边将介绍一些关键常用的属性。
虚拟机规范预定义的属性:
在这里插入图片描述
在这里插入图片描述
对于每个属性,它的名称需要从常量池引用一个CONSTANT_Utf8_info类型的常量来表示,而属性值的结构则完全自定义的,只需要通过一个u4的长度属性去说明属性值所占用的位数即可。一个符合规则的属性表应该满足以下定义结构
在这里插入图片描述
属性表集合之Code属性
Java程序方法体中的代码经过Javac编译处理后,最终变为字节码指令存储在Code属性中,Code属性出现在方法表的属性集合之中。但并非所有方法表都有Code属性,例如抽象类或接口。
Code属性表的结构:
在这里插入图片描述
attribute_name_index所指向的CONSTANT_Utf8_info类型常量的值固定为“Code”。
attribute_length标识属性值的总长度。
max_stack代表了操作数栈(Operand Stacks)深度的最大值。
max_locals代表了局部变量所表示的存储空间(单位是Slot),一个Slot占用32个字节,double或long这种64位的数据类型则需要两个Slot来存放。方法参数、局部变量、异常变量都需要使用局部变量表来存放。Javac编译器会根据变量的作用域来分配Slot,每个Slot在整个线程周期可以重复使用,然后根据变量数和作用域计算出max_locals的大小。
code_length和code是用来存储Java源程序编译后产生的字节码指令,code_length代表字节码长度,既然叫字节码,每个指令就是一个u1类型的单字节,当虚拟机读取到code中的一个字节码时,就可以找出这个字节码代表的是什么指令,并且可以知道这条指令后面是否需要跟随参数,以及参数应当如何理解。一个字节取值范围为0~255,所以字节码指令肯定不会超过256个指令,目前Java虚拟机规范定义了其中约200条编码值对应指令的含义。
因为code_length是一个u4类型,所以理论上每个方法的字节长度不能超过2^23-1,但是虚拟机规范中明确限定了一个方法不能超过65535条字节码指令,即实际只用到了u2的长度。关于虚拟机字节码执行的讲解将在下一篇博客中详解。

在字节码指令之后的是这个方法的显式异常处理表(下文简称异常表)集合,异常表对于Code属性来说并不是必须存在的

异常表的结构:
在这里插入图片描述
这些字段的含义是如果当字节码在第start_pc行到end_pc行之间(不含第end_pc行)出现了类型为catch_type或其子类异常(catch_type为指向一个CONSTANT_Class_info型常量的索引),则转到第handler_pc行继续处理。当catch_type的值为0时,代表任意异常情况都需要转向到handler_pc处进行处理。
编译器使用异常表而不是简单的跳转命令来实现Java异常及finally处理机制;在JDK1.4.2之前的Javac编译器采用了jsr和ret指令实现finally语句,但在1.4.2之后已经改为编译器自动在每段可能的分支路径之后都将finally语句块的内容冗余生成一遍来实现finally语义;在1.7中已经完全禁止jsr和ret指令,如果遇到这两条指令,虚拟机会在类加载的字节码校验阶段抛出异常。

属性表集合之Exception属性
这里的Exception属性是在方法表中与Code属性平级的一项属性,不要与前面刚刚讲解完的异常表产生混淆。Exception属性的作用是列举出方法中可能抛出的受查异常(Checked Exceptions), 也就是方法描述时在throws关键字后面列举的异常。
Exception属性表结构:
在这里插入图片描述
number_of_exceptions表示方法可能抛出number_of_exceptions种受查异常,每一种受查异常使用一个exception_index_table项表示,exception_index_table是一个指向常量池中CONSTANT_Class_info型常量的索引,代表该受查异常的类型。

属性表集合之LineNumberTable属性
LineNumberTable属性用于描述Java源码行号与字节码行号(字节码的偏移量)之间的对应关系。
LineNumberTable属性表结构:
在这里插入图片描述
line_number_table是一个数量为line_number_table_length,类型为line_number_info的集合,line_number_info表包括了start_pc和line_number两个u2类型的数据项,前者是字节码行号,后者是Java源码行号。

属性表集合之LocalVariableTable属性
LocalVariableTable属性用于描述栈帧中局部变量表中的变量与Java源码中定义的变量之间的关系。
LocalVariableTable属性结构:
在这里插入图片描述
local_variable_info项目代表了一个栈帧与源码中的局部变量的关联,结构见下表:
在这里插入图片描述
start_pc和length属性分别代表了这个局部变量的生命周期开始的字节码偏移量及其作用范围覆盖的长度,两者结合起来就是这个局部变量在字节码之中的作用域范围。
name_index和descriptor_index都是指向常量池中CONSTANT_Utf8_info型常量的索引,分别代表了局部变量的名称及这个局部变量的描述符。
index是这个局部变量在栈帧局部变量表中Slot的位置。当这个变量数据类型是64位类型时(double和long),它占用的Slot为index和index+1两个
在JDK1.5引入泛型之后,LocalVariableTable属性增加了一个“姐妹属性”:LocalVariableTypeTable,这个新增属性的结构与LocalVariableTable非常相似,仅仅是把记录的字段描述符的descriptor_index替换成了字段的特征签名(Signature),对于非泛型来说,描述符和特征签名能描述的信息是基本一致的。

属性表集合之SourceFile属性
SourceFile属性用于记录生成这个Class文件的源码文件名称。
sourceFile属性结构:
在这里插入图片描述
sourcefile_index数据项是指向常量池中CONSTANT_Utf8_info型常量的索引,常量值是源码文件的文件名。

属性表集合之ConstantValue属性

ConstantValue属性的作用是通知虚拟机自动为静态变量赋值。只有被static关键字修饰的常量(类变量)才可以使用这项属性。目前Sun Javac编译器的选择是:如果同时使用final和static来修饰一个变量,并且这个变量的数据类型是基本类型或者java.lang.String的话,就生成ConstantValue属性来进行初始化,如果这个变量没有被final修饰,或者并非基本类型及字符串,则将会选择在< clinit >方法中进行初始化。
对ConstantValue的属性值只能限于基本类型和String。
ConstantValue属性结构:
在这里插入图片描述
属性表集合之InnerClasses属性

InnerClasses属性用于记录内部类与宿主类之间的关联。
InnerClasses属性结构:
在这里插入图片描述
number_of_classes代表需要记录多少个内部类信息。
inner_classes_info表的结构:
在这里插入图片描述
inner_class_info_index和outer_class_info_index分别代表了内部类和宿主类的符号引用。inner_name_index代表内部类的名称,inner_class_access_flags是内部类的访问标志。

属性表集合之Deprecated及Synthetic属性

两个属性都属于标志类型的布尔属性,只存在有和没有的区别,没有属性值的概念。Synthetic代表字段或者方法并不是有Java源码直接产生的,而是由编译器自行添加的。

属性表集合之StackMapTable属性

StackMapTable属性在JDK1.6发布后增加到了Class文件规范中,它是一个复杂的变长属性,位于Code属性的属性表中。会在虚拟机类加载的字节码验证阶段被新类型检查验证器(Type Checker)使用,目的在于代替以前比较消耗性能的基于数据流分析的类型推导验证器。一个方法的Code属性最多只能有一个StackMapTable属性。

属性表集合之Signature属性

Signature属性在JDK1.5增加到Class文件规范之中,用于记录泛型签名信息。Java语言的泛型采用的是擦除法实现的伪泛型,缺点就是运行期做反射时无法获得到泛型信息,Signature属性就是为了弥补这个缺陷而增设的。
Signature属性的结构:
在这里插入图片描述
signature_index的值必须是一个对常量池的有效索引。常量池在该索引处的项必须是CONSTANT_Utf8_info结构,表示类签名、方法类型签名或字段类型签名。

属性表集合之BootstrapMethods属性

BootstrapMethods属性在JDK1.7增加到Class文件规范之中的。它是一个复杂的变长属性,位于类文件的属性表中。用于保存invokedynamic指令引用的引导方法限定符。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值