类文件结构
代码编译的结果从本机机器码转变为字节码,是存储格式发展的一小步,支是编程语言的一大步。
1. 概述
原来,程序需要编译成二进制本地机器码。类似C语言。
之后,大量的语言可以建立在虚拟机上,这样可以将我们的程序编译成与操作系统和机器指令集无关的、平台中立格式作为程序编译后的存储格式。
2. 无关性的基石
如果计算机的CPU指令集只有x86一种,操作系统也只有Windows一种,那也许Java语言就不会出现。
Java在诞生之初,宣传口号是“一次编写,到处运行”,这句话充分表达了开发人员对冲破平台界限的渴求。
各种不同的硬件体系结构和不同的操作系统肯定会长期并存发展。
“与平台无关”的理想最终实现在操作系统的应用层上,Sun公司以及其他虚拟机提供商发布了许多可以运行在不同平台上的虚拟机,这些虚拟机都可以载入和执行同一平台无关的字节码,从而实现了程序的“一次编写,到处运行”。
用虚拟机来屏蔽底层操作系统的不同性。让同一程序在不同虚拟机上都能直接运行,也就实现了在不同平台上的直接运行。
各种不同平台的虚拟机与所有平台都统一使用的程序存储格式—字节码(ByteCode)是构成平台无关性的基石。
商业机构和开源机构已经在Java语言之外发展出一大批在Java虚拟机之上运行的语言,如Groovy、JRuby、Jython、Scala等。
或许,Java虚拟机在语言无关性上的优势会超越它在平台无关性上的优势。
实现语言无关性的基础仍然是虚拟机和字节码存储格式。
Java虚拟机不与Java在内的任何语言绑定,它只与“Class文件”这种特定的二进制文件格式所关联,Class文件中包含了Java虚拟机指令集和符号表以及若干其他辅助信息。
基于安全方面的考虑,Java虚拟机规范要求在Class
3. Class类文件的结构
Class文件是一组以8位字节为基础单件的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部是程序运行的必要数据,没有空隙存在。
需要占用8位字节以上空间数据时,会按照高位在前的方式存储。(大端模式:高位放在低地址)
根据Java虚拟机规范的规定,Class文件格式采用一种类似于C语言结构体的伪结构来存储数据,这种伪结构中只有两种数据类型:
- 无符号数
- 表
无符号数属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节、8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值或者按照UTF-8编码构成字符串值。
表是由多个无符号数或者其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复合结构的数据,整个Class文件本质上就是一张表。
Class 文件格式
类型 | 名称 | 数量 |
---|---|---|
u4 | magic | 1 |
u2 | minor_version | 1 |
u2 | major_version | 1 |
u2 | constant_pool_count | 1 |
cp_info | constant_pool | constant_pool_count-1 |
u2 | access_flags | 1 |
u2 | this_class | 1 |
u2 | super_class | 1 |
u2 | interfaces_count | 1 |
u2 | interfaces | interfaces_count |
u2 | fields_count | 1 |
fields_info | fields | fields_count |
u2 | methods_count | 1 |
method_info | methods | methods_count |
u2 | attributes_count | 1 |
attributes_info | attributes | attributes_count |
无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这时称这一系列连续的某一类型的数据为某一类型的集合。
例如,类里面的方法存储:
类型 | 名称 | 数量 |
---|---|---|
u2 | methods_count | 1 |
method_info | methods | methods_count |
1.魔数与Class文件的版本
每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用是确定这个文件是否为一个能被虚拟机接受的Class文件。
很多文件存储标准中都使用魔数来进行身份识别,如图片格式。
Class 文件的魔数的获得很有“浪漫气息”,值为:0xCAFEBABE(咖啡宝贝)
紧接着魔数的4个字节存储的是Class文件的版本号:
- 第5和第6个字节是次版本号(Minor Version)
- 第7和第8个字节是主版本号(Major Version)
Java版本号是从45开始的。
- JDK 1.7(51.0)
- JDK 1.8 (52.0)
2.常量池
紧接主次版本号之后的是常量池入口,常量池可以理解为Class文件之中的资源仓库。
- 它是Class文件结构中与其他项目关联最多的数据类型;
- 也是占用Class文件空间最大的数据项目之一;
- 它还是在Class文件中第一个出现的表类型数据项目;
常量池的容量计数是从1开始,而不是0开始。
常量池中主要存放两大类常量:
- 字面量(Literal)
- 符号引用(Symbolic References)
字面量比较接近于Java语言层面的常量概念,如文本字符串,声明为final的常量值等。
符号引用则属于编译原理方面的概念,包括了下面三类常量:
- 类和接口的全限定名(Fully Qualified Name)
- 字段的名称和描述符(Descriptor)
- 方法的名称和描述符
Java 代码在进行Javac编译的时候,并不像C语言那样有“连接”这一步骤,而是在虚拟机加载Class文件的时候进行动态连接。
简单来说,就是在Class文件中不会保存各个方法、字段的最终内存布局信息,因此这些字段、方法的符号引用不经过运行期转换的话也无法得到真正的内存入口地址,也就无法直接被虚拟机使用。
当虚拟机运行时,需要从常量池获取对应的符号引用,再在类创建时或运行时解析、翻译到具体的内存地址之中。
常量池的项目类型
类型 | 标志(tag) | 描述 |
---|---|---|
CONSTANT_Utf8_info | 1 | UTF-8编码的字符串 |
CONSTANT_Integer_info | 3 | 整型字面量 |
CONSTANT_Float_info | 4 | 浮点型字面量 |
CONSTANT_Long_info | 5 | 长整型字面量 |
CONSTANT_Double_info | 6 | 双精度浮点型字面量 |
CONSTANT_Class_info | 7 | 类或接口的符号引用 |
CONSTANT_String_info | 8 | 字符串类型字面量 |
CONSTANT_Fieldref_info | 9 | 字段的符号引用 |
CONSTANT_Methodref_info | 10 | 类中方法的符号引用 |
CONSTANT_InterfaceMethodref_info | 11 | 接口中方法的符号引用 |
CONSTANT_NameAndType_info | 12 | 字段或方法的部分符号引用 |
CONSTANT_MethodHandle_info | 15 | 表示方法句柄 |
CONSTANT_MethodType_info | 16 | 标识方法类型 |
CONSTANT_InvokeDynamic_info | 18 | 表示一个动态方法调用点 |
常量池是最烦琐的数据,是因为这14种常量类型各自均有自己的结构。
CONSTANT_Class_info
型常量的结构
类型 | 名称 | 数量 |
---|---|---|
u1 | tag | 1 |
u2 | name_index | 1 |
- tag是标志位,用于区分常量类型
name_index
是一个索引值,它指向常量池中一个CONSTANT_Utf8_info
类型常量,此常量代表了这个类(或者接口)的全限定名。
CONSTANT_Utf8_info
型常量的结构
类型 | 名称 | 数量 |
---|---|---|
u1 | tag | 1 |
u2 | length | 1 |
u1 | bytes | length |
- length 值说明了这个UTF-8 编码的字符串长度是多少字节,
- 紧跟着长度length字节的连续数据bytes是一个使用UTF-8 缩略编码表示的字符串。
由于Class 文件中方法、字段等都需要引用CONSTANT_Utf8_info
型常量来描述名称,所以 CONSTANT_Utf8_info
型常量的最大长度也就是Java中方法、字段名的最大长度。
而这里的最大长度就是length的最大值,即u2类型能表达的最大值 65535。 所以Java程序中如果定义了超过64KB英文字符的变量或方法名,将会无法编译。
可以看到上图中,有一些常量似乎从来没有在代码中出现过,“I”,“V”,“”,“LineNumberTable”,“LocalVariableTable”等,这些看起来在代码任何一处都没有出现过的常量是哪里来的呢?
这部分自动生成的变量的确没有在Java代码里面直接出现过,但它们会被后面即将讲到的字段表(field_info)、方法表(method_info)、属性表(attribute_info)引用到,它们会用来描述一些不方便使用“固定字节”进行表达的内容。
常量池中的14种常量项的结构总表
CONSTANT_Utf8_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为1 |
length | u2 | UTF-8编码的字符串占用的字节数 |
bytes | u1 | 长度为length的UTF-8编码的字符串 |
CONSTANT_Integer_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为3 |
bytes | u4 | 按照高位在前存储的int值 |
CONSTANT_Float_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为4 |
bytes | u4 | 按照高位在前存储的float值 |
CONSTANT_Long_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为5 |
bytes | u8 | 按照高位在前存储的long值 |
CONSTANT_Double_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为6 |
bytes | u8 | 按照高位在前存储的double值 |
CONSTANT_Class_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为7 |
name_index | u2 | 指向全限定名常量项的索引 |
CONSTANT_String_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为8 |
name_index | u2 | 指向字符串字面量的索引 |
CONSTANT_Fieldref_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为9 |
class_index | u2 | 指向声明字段的类或者接口描述符CONSTANT_Class_info 的索引项 |
name_and_type_index | u2 | 指向声明字段描述符CONSTANT_NameAndType_info 的索引项 |
CONSTANT_Methodref_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为10 |
class_index | u2 | 指向声明字段的类或者接口描述符CONSTANT_Class_info 的索引 |
name_and_type_index | u2 | 指向声明字段描述符CONSTANT_NameAndType_info 的索引 |
CONSTANT_InterfaceMethodref_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为11 |
class_index | u2 | 指向声明字段的类或者接口描述符CONSTANT_Class_info 的索引 |
name_and_type_index | u2 | 指向声明字段描述符CONSTANT_NameAndType_info 的索引 |
CONSTANT_NameAndType_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为12 |
name_index | u2 | 指向该字段或方法名称常量项的索引 |
descriptor_index | u2 | 指向该字段或方法描述符常量项的索引 |
CONSTANT_MethodHandle_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为15 |
reference_kind | u1 | 值必须在1~9之间(包括1和9),它决定了方法句柄的类型。方法句柄类型的值表示方法句柄的字节码行为。 |
reference_index | u2 | 值必须是对常量池的有效索引 |
CONSTANT_MethodType_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为16 |
descriptor_index | u2 | 值必须是对常量池的有效索引,常量池在该索引处的项必须是 CONSTANT_Utf8_info 结构,表示方法的描述符 |
CONSTANT_InvokeDynamic_info
项目 | 类型 | 描述 |
---|---|---|
tag | u1 | 值为18 |
bootstrap_method_attr_index | u2 | 值必须在1~9之间(包括1和9),它决定了方法句柄的类型。方法句柄类型的值表示方法句柄的字节码行为。 |
name_and_type_index | u2 | 值必须是对常量池的有效索引,常量池在该索引处的项必须是 CONSTANT_NameAndType_info 结构,表示方法名和方法描述符。 |
3.访问标志
在常量池结束之后,紧接着2个字节代表访问标志(access_flags),这个标志用于识别一些类或接口层次的访问信息。
包括:
- 这个Class是类还是接口;
- 是否定义为public类型;
- 是否定义为abstract类型;
- 是否被声明为final;
访问标志
标志名称 | 标志值 | 含义 |
---|---|---|
ACC_PUBLIC | 0x0001 | 是否为public类型 |
ACC_FINAL | 0x0010 | 是否为final,只有类可设置 |
ACC_SUPER | 0x0020 | 是否允许使用invokespecial字节码指令的新语意。 |
ACC_INTERFACE | 0x0200 | 标识这是一个接口 |
ACC_ABSTRACT | 0x0400 | 是否为abstract类型 |
ACC_SYNTHETIC | 0x1000 | 标识这个类并非由用户代码产生的 |
ACC_ANNOTATION | 0x2000 | 标识这是一个注解 |
ACC_ENUM | 0x4000 | 标识这是一个枚举 |
4.类索引、父类索引与接口索引集合
类索引(this_class
)和父类索引(super_class
)都是一个u2类型的数据,而接口索引集合(interfaces
)是一组u2类型的数据的集合,Class文件中由这三项数据来确定这个类的继承关系。
- this_class (类索引)
- super_class (父类索引)
- interfaces (接口索引集合)
5.字段表集合
字段表(field_info
)用于描述接口或者类中声明的变量。
字段(field)包括类级变量以及实例变量,但不包括在方法内部声明的局部变量。
字段表结构
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | attributes_count | 1 |
u2 | attributes | attributes_count |
字段访问标志
标志名称 | 标志值 | 含义 |
---|---|---|
ACC_PUBLIC | 0x0001 | 字段是否 public |
ACC_PRIVATE | 0x0002 | 字段是否 private |
ACC_PROTECTED | 0x0004 | 字段是否 protected |
ACC_STATIC | 0x0008 | 字段是否 static |
ACC_FINAL | 0x0010 | 字段是否 final |
ACC_VOLATILE | 0x0040 | 字段是否volatile |
ACC_TRANSIENT | 0x0080 | 字段是否transient |
ACC_SYNTHETIC | 0x1000 | 字段是否由编译器自动产生的 |
ACC_ENUM | 0x4000 | 字段是否enum |
跟随access_flags
标志的是两项索引值:
name_index
字段简单名称descriptor_index
字段和方法的描述符
全限定名和简单名称指没有类型和参数修饰的方法或字段名称。
字段和方法的描述符的作用是用来描述字段的数据类型,方法的参数列表(包括数量、类型以及顺序)和返回值。
描述符标识字符含义
标志名称 | 含义 |
---|---|
B | 基本类型byte |
C | 基本类型char |
D | 基本类型double |
F | 基本类型float |
I | 基本类型int |
J | 基本类型long |
S | 基本类型short |
Z | 基本类型boolean |
V | 特殊类型void |
L | 对象类型,如Ljava/lang/Object |
[ | 数组类型,如[[java/lang/String ,[I |
对于数组类型,每一维度将使用一个前置的”[“字符来描述。
[[java/lang/String
表示java.lang.String[][]
类型的二维数组。[I
表示int[]
一个整型数组。
用描述符来描述方法时,按照先参数列表,后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号“()”之内。
- 方法
void inc()
的描述符为()V
- 方法
java.lang.String toString()
的描述符为()Ljava/lang/String;
- 方法
int indexOf(char[]source,int sourceOffset,int sourceCount,char[] target,int targetOffset,int targetCount,int fromIndex)
的描述符为([CII[CIII)I
6. 方法表集合
Class 文件存储格式中对方法的描述与对字段的描述几乎采用了完全一致的方法,方法表的结构如同字段表一样,依次包括了访问标志(access_flags
)、名称索引(name_index
)、描述符索引(descriptor_index
)、属性表集合(attributes)几项。
方法表结构
类型 | 名称 | 数量 |
---|---|---|
u2 | access_flags | 1 |
u2 | name_index | 1 |
u2 | descriptor_index | 1 |
u2 | attributes_count | 1 |
attributes_info | attributes | attributes_count |
方法访问标志
标志名称 | 标志值 | 含义 |
---|---|---|
ACC_PUBLIC | 0x0001 | 方法是否 public |
ACC_PRIVATE | 0x0002 | 方法是否 private |
ACC_PROTECTED | 0x0004 | 方法是否 protected |
ACC_STATIC | 0x0008 | 方法是否 static |
ACC_FINAL | 0x0010 | 方法是否 final |
ACC_SYNCHRONIZED | 0x0020 | 方法是否 synchronized |
ACC_BRIDGE | 0x0040 | 方法是否是由编译器产生的桥接方法 |
ACC_VARARGS | 0x0080 | 方法是否接受不定参数 |
ACC_NATIVE | 0x0100 | 方法是否为native |
ACC_ABSTRACT | 0x0400 | 方法是否abstract |
ACC_TRANSIENT | 0x0800 | 方法是否strictfp |
ACC_SYNTHETIC | 0x1000 | 方法是否由编译器自动产生的 |
编译器自动添加的方法,最典型的便是:
- 类构造器
<clinit>
- 实例构造器
<init>
7.属性表集合
属性表(attribute_info)在前面的讲解之中已经出现过数次,在Class文件、字段表、方法表都可以携带自己的属性表集合,用于描述某些场景专有的信息。
虚拟机规范预定义的属性
属性名称 | 使用位置 | 含义 |
---|---|---|
Code | 方法表 | Java代码编译成的字节码指令 |
ConstantValue | 字段表 | final关键字定义的常量值 |
Deprecated | 类、方法表、字段表 | 被声明为deprecated的方法和字段 |
Exceptions | 方法表 | 方法抛出的异常 |
EnclosingMethod | 类文件 | 仅当一个类为局部类或者匿名类时才能拥有这个属性,这个属性用于标识这个类所在的外围方法 |
innerClasses | 类文件 | 内部类列表 |
LineNumberTable | Code属性 | Java源码的行号与字节码指令的对应关系 |
LocalVariableTable | Code属性 | 方法的局部变量描述 |
StackMapTable | Code属性 | 检查和处理目标方法的局部变量和操作数栈所需要的类型是否匹配 |
Signature | 类、方法表、字段表 | 记录泛型中的相关信息 |
SourceFile | 类文件 | 记录源文件名称 |
SourceDebugExtension | 类文件 | 存储这个标准所新加入的调试信息 |
Synthetic | 类、方法表、字段表 | 标识方法或字段为编译器自动生成的 |
LocalVariableTypeTable | 类 | 描述泛型参数化类型 |
RuntimeVisibleAnnotations | 类、方法表、字段表 | 指明哪些注解是运行时可见的 |
RuntimeInvisibleAnnotations | 类、方法表、字段表 | 指明哪些注解是运行时不可见的 |
RuntimeVisibleParameter | 方法表 | 方法参数上,指明哪些注解是运行时可见的 |
RuntimeInvisibleParameter | 方法表 | 方法参数上,指明哪些注解是运行时不可见的 |
AnnotationDefault | 方法表 | 记录注解类元素的默认值 |
BootstrapMethods | 类文件 | 用于保存invokedynamic指令引用的引导方法限定符 |
属性表结构
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u1 | info | attribute_length |
Code属性表的结构
类型 | 名称 | 数量 |
---|---|---|
u2 | attribute_name_index | 1 |
u4 | attribute_length | 1 |
u2 | max_stack | 1 |
u2 | max_locals | 1 |
u4 | code_length | 1 |
u1 | code | code_length |
u2 | exception_table_length | 1 |
exception_info | exception_table | exception_table_length |
u2 | attributes_count | 1 |
attributes_info | attributes | attributes_count |