-
Class 类的本质
任何一个Class文件都对应着唯一一个类或者接口的定义信息,但反过来说,Class文件实际上它并不一定以磁盘文件的形式存在。Class文件是一组以8位字节为基础单位的二进制流。 -
Class文件格式
Class的结构不像XML等描述语言,由于它没有任何分隔符号。所以在其中的数据项,无论是字节顺序还是数量,都是被严格限定的,哪个字节代表什么含义,长度是多少,先后顺序如何,都是不允许改变的。 -
Class 文件结构概述
Class文件的结构并不是一成不变的,随着Java虚拟机的不断发展,总是不可避免地 会对Class文件结构做一些调整,但是其基本结构和框架是非常稳定的。
Class文件的总体结构如下:- 魔数
- Class文件版本
- 常量池
- 访问标志
- 类索引、父类索引、接口索引集合
- 字段表集合
- 方法表集合
- 属性表集合
class 字节码文件结构
类型 | 名称 | 说明 | 长度 | 数量 |
---|---|---|---|---|
u4 | magic | 魔数,识别Class文件格式 | 4个字节 | 1 |
u2 | minor_version | 副版本号(小版本号) | 2个字节 | 1 |
u2 | major_version | 主版本号(大版本号) | 2个字节 | 1 |
u2 | constant_pool_count | 常量池计数器 | 2个字节 | 1 |
cp_info | constant_pool | 常量池表 | n个字节 | constant_pool_count-1 |
u2 | access_flags | 访问标识 | 2个字节 | 1 |
u2 | this_class | 类索引 | 2个字节 | 1 |
u2 | super_class | 父类索引 | 2个字节 | 1 |
u2 | interfaces_count | 接口计数器 | 2个字节 | 1 |
u2 | interfaces | 接口索引集合 | 2个字节 | interfaces_count |
u2 | fields_count | 字段计数器 | 2个字节 | 1 |
field_info | fields | 字段表 | n个字节 | fields_count |
u2 | methods_count | 方法计数器 | 2个字节 | 1 |
method_info | methods | 方法表 | n个字节 | methods_count |
u2 | attributes_count | 属性计数器 | 2个字节 | 1 |
attribute_info | attributes | 属性表 | n个字节 | attributes_count |
魔数
- 每个Class文件开头的4个字节的无符号整数称为魔数(Magic Number)。
- 它的唯一作用就是确定这个文件是否为一个能被虚拟机接受的有效合法的Class文件。即,魔数是Class文件的标识符。
- 魔数的固定值为0xCAFEBABE,不会改变。
- 使用魔数而不是扩展名来进行识别主要是基于安全方法的考虑,因为文件扩展名可以随意地改动。
Class文件版本号
-
紧接着魔数的4个字节存储的是Class文件的版本号。同样也是4个字节。第5个和第6个字节所代表的含义就是编译的副版本号minor_version,而第7个和第8个字节就是编译的主版本号major_version。
-
它们共同构成了class文件的格式版本号。譬如某个Class文件的主版本号为M,副版本号为m,那么这个Class文件的格式版本号就确定为M.m。
-
版本号和Java编译器的对应关系如下表:
主版本号(十进制) 副版本号(十进制) 编译器版本 45 3 1.1 46 0 1.2 47 0 1.3 48 0 1.4 49 0 1.5 50 0 1.6 51 0 1.7 52 0 1.8 53 0 1.9 54 0 1.10 55 0 1.11 -
Java的版本号是从45开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1。
-
不同版本的Java编译器编译的Class文件对应的版本是不一样的。目前,高版本的Java虚拟机可以执行由低版本编译器生成的Class文件,但是低版本的Java虚拟机不能执行由高版本编译生成的Class文件。否则JVM会抛出java.lang.UnsupportedClassVersionError异常。
-
在实际应用中,由于开发环境和生产环境的不同,可能会导致该问题的发生。因此,需要我们在开发时,特别注意开发编译的JDK版本和生产环境中的JDK版本是否一致。
常量池:存放所有常量
- 常量池是Class文件中内容最为丰富的区域之一。常量池对于Class文件中的字段和方法解析有着至关重要的作用。
- 随着Java虚拟机的不断发展,常量池的内容也日渐丰富。可以说,常量池是整个Class文件的基石。
- 在版本号之后,紧跟着是常量池的数量,以及若干个常量池表项。
- 常量池中常量的数量是不固定的,所以在常量池的入口需要放置一项u2类型的无符号数,代表常量池容量计算值(constant_pool_count)。与Java中语言习惯不一样的是,这个容量计数器是从1而非0开始的。
- 常量池表项中,用于存放编译时期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。
常量池计数器 constant_pool_count
- 由于常量池的数量不固定,时长时短,所以需要放置两个字节来表示常量池容量计数值。
- 常量池容量计数值(u2类型):从1开始,表示常量池中由多少项常量。即constant_pool_count=1表示常量池中有0个常量项目。
常量池表 constant_pool[ ]
-
constant_pool是一种表结构,以1~constant_pool_count -1为索引,表明有多少个常量项。
-
常量池主要存放两大类常量:字面量和符号引用。
-
它包含了class文件结构及其子结构中引用的所有字符串常量、类或接口名、字段名和其他常量。常量池中的每一项都具备相同的特征。第一个字节作为类型标记,用于确定该项的格式,这个字节称为tag byte(标记字节、标签字节)。
Constant Type Value 描述 CONSTANT_Class 7 类或接口的符号引用 CONSTANT_Fieldref 9 字段的符号引用 CONSTANT_Methodref 10 类中方法的符号引用 CONSTANT_InterfaceMethodref 11 接口中方法的符号引用 CONSTANT_String 8 字符串类型字面量 CONSTANT_Integer 3 整型字面量 CONSTANT_Float 4 浮点型字面量 CONSTANT_Long 5 长整型字面量 CONSTANT_Double 6 双精度浮点型字面量 CONSTANT_NameAndType 12 字段或方法的符号引用 CONSTANT_Utf8 1 UTF-8编码的字符串 CONSTANT_MethodHandle 15 表示方法句柄 CONSTANT_MethodType 16 标识方法类型 CONSTANT_InvokeDynamic 18 动态引用
字面量和符号引用
常量池中主要存放两大类常量:字面量和符号引用。
常量 | 具体的常量 |
---|---|
字面量 | 文本字符串 |
声明为final的常量值 | |
符号引用 | 类和接口的全限定名 |
字段的名称和描述符 | |
方法的名称和描述符 |
-
全限定名
com/test/jvm/Demo这就是类的全限定名,仅仅是把包名的".“替换成”/",为了使连续的多个全限定名不产生混淆,在使用时最后一般会加入一个“;”表示全限定名结束。 -
简单名称
简单名称使指没有类型和参数修饰的方法或者字段名称。 -
描述符
描述符的作用是用来描述字段的数据类型,方法的参数列表(包括数量、类型以及顺序)和返回值。根据描述规则,基本数据类型(byte,char,double,float,int,long,short,boolean)以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示。标识符 含义 B 基本数据类型byte C 基本数据类型char D 基本数据类型double F 基本数据类型float I 基本数据类型int J 基本数据类型long S 基本数据类型short Z 基本数据类型boolean V 数据类型void L 对象类型,比如: Ljava/lang/Object; [ 数组类型,代表一组数组 用描述符来描述方法时,按照先参数列表,后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号“()”之内。如方法 java.lang.String toString()的描述符为() Ljava/lang/String;,方法int abc(int[] x, int y)的描述符为([II) I。
虚拟机在加载Class文件时才会进行动态链接,也就是说,Class文件中不会保存各个方法和字段的最终内存布局信息,因此,这些字段和方法的符号引用不经过转换是无法直接被虚拟机使用的。当虚拟机运行时,需要从常量池中获得对应的符号引用,再在类加载过程中的解析阶段将其替换为直接引用,并翻译到具体的内存地址中。
符号引用和直接引用的区别与关联:
- 符号引用:符号引用以一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关,引用的目标并不一定已经加载到内存中。
- 直接引用:直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用与虚拟机实现的内存布局相关的,同一个符号引用在不同的虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用,那说明引用的目标必定已经存在于内存之中了。
常量类型和结构
常量池中每一项常量都是一个表,JDK1.7之后共有14种不同的表结构数据。如下表个所示:
标识 | 常量 | 描述 | 细节 | 长度 | 细节描述 |
1 | CONSTANT_utf8_info | UTF-8编码的字符串 | tag | u1 | 值为1 |
length | u2 | UTF-8编码的字符串占用的字符数 | |||
bytes | u1 | 长度为length的UTF-8编码的字符串 | |||
3 | CONSTANT_Integer_info | 整型字面量 | tag | u1 | 值为3 |
bytes | u4 | 按照高位在前存储的int值 | |||
4 | CONSTANT_Float_info | 浮点型字面量 | tag | u1 | 值为4 |
bytes | u4 | 按照高位在前存储的float值 | |||
5 | CONSTANT_Long_info | 长整型字面量 | tag | u1 | 值为5 |
bytes | u8 | 按照高位在前存储的long值 | |||
6 | CONSTANT_Double_info | 双精度浮点型字面量 | tag | u1 | 值为6 |
bytes | u8 | 按照高位在前存储的double值 | |||
7 | CONSTANT_Class_info | 类或接口的符号引用 | tag | u1 | 值为6 |
index | u2 | 指向全限定名常量项的索引 | |||
8 | CONSTANT_String_info | 字符串类型字面量 | tag | u1 | 值为8 |
index | u2 | 指向字符串字面量的索引 | |||
9 | CONSTANT_Fieldref_info | 字段的符号引用 | tag | u1 | 值为9 |
index | u2 | 指向声明字段的类或接口的描述符 CONSTANT_Class_info的索引项 | |||
index | u2 | 指向字段描述符CONSTANT_NameAndType的索引项 | |||
10 | CONSTANT_Methodref_info | 类中方法的符号引用 | tag | u1 | 值为10 |
index | u2 | 指向声明方法的类描述符CONSTANT_Class_Info的索引项 | |||
index | u2 | 指向名称及类型描述符CONSTANT_NameAndType的索引项 | |||
11 | CONSTANT_InterfaceMethodref_info | 接口中方法的符号引用 | tag | u1 | 值为11 |
index | u2 | 指向声明方法的接口描述符CONSTANT_Class_Info的索引项 | |||
index | u2 | 指向名称及类型描述符CONSTANT_NameAndType的索引项 | |||
12 | CONSTANT_NameAndType_info | 字段或方法的符号引用 | tag | u1 | 值为12 |
index | u2 | 指向该字段或方法名称常量项的索引 | |||
index | u2 | 指向该字段或方法描述符常量项的索引 | |||
15 | CONSTANT_MethodHandle_info | 表示方法句柄 | tag | u1 | 值为15 |
reference_kind | u1 | 值必须在1-9之间,它决定了方法句柄的字节码行为 | |||
reference_index | u2 | 值必须是对应常量池的有效索引 | |||
16 | CONSTANT_MethodType_info | 表示方法类型 | tag | u1 | 值为16 |
descriptor_index | u2 | 值必须是对常量池的有效索引,常量池在该索引处必须是CONSTANT_utf8_info | |||
18 | CONSTANT_InvokeDynamic_info | 表示一个动态方法调用点 | tag | u1 | 值为18 |
bootstrap_method_attr | u2 | 值必须是对当前Class文件中引导方法表bootstrap_methods[]数组的有效索引 | |||
name_and_type_index | u2 | 值必须是对当前常量池的有效索引,常量池在该索引处的项必须是CONSTANT_NameAndType_Info结构,表示方法名和方法描述 |
解析示例
- 代码:
package bytecode; public class Demo { private int num = 1; public int add() { num = num + 2; return num; } }
- 查看 Demo.class文件,如下图:
- 将该二进制字节码整理成excel后,解析常量池中的内容,如下图:
从该图中,可以明白如下几点:- 前四个字节 CA FE BA BA(咖啡baby),用来表明该二进制文件是class文件,即表明所有的class文件都是以CA FE BA BA开头的。
- 紧接着两个字节是副版本号,副版本号后紧挨着的两个字节是主版本号,通过副版本号和主版本号,我们可以确定该class文件是有何种版本的jdk编译而成的。如图中,副版本号是0,主版本号34,即十进制的52,因此我们通过文章之前列出的表“Class文件版本号”可以清楚知道该class文件是由JDK 1.8生成的。
- 接下来的两个字节是 00和16,即十进制的22,通过公式 22 - 1 = 21 知道,常量池的数据项是21项。
- 紧接着是后面的21数据项,我们先从第一项的第一个字节开始。第一个字节是0A,即十进制的10,因此我们从上面的“常量类型和结构”的表格中,找到标识为10的那一行。从而得知,第一项一共占用5个字节。 即
接下来是第二项。按照如上方法,先找第二项的第一个字节,并且与常量类型和结构”的表格比对。以此,找到常量池中的所有项。
总结
- 常量池可以理解为Class文件中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一。
- Java代码进行Javac编译的时候,并不像C和C++那样有“链接”这一步骤,而是在虚拟机加载Class文件的时候进行动态链接。也就是说,在Class文件中不会保存各个方法,字段的最终内存布局信息。因此这些方法不经过运行期转换的话无法得到真正的内存入口地址,也就无法直接被虚拟机使用。