Class文件结构(一)

本文深入探讨了Java Class文件的结构,包括魔数、版本号、常量池、访问标志、类索引、字段表、方法表和属性表等核心组成部分。常量池作为Class文件的基础,存储各种字面量和符号引用。不同版本的Java编译器产生的Class文件版本号不同,高版本的JVM可以执行低版本的Class文件,反之则不行。解析Class文件时,符号引用会被转换为直接引用,以确定内存中的具体位置。
摘要由CSDN通过智能技术生成

参考文档

  • Class 类的本质
    任何一个Class文件都对应着唯一一个类或者接口的定义信息,但反过来说,Class文件实际上它并不一定以磁盘文件的形式存在。Class文件是一组以8位字节为基础单位的二进制流。

  • Class文件格式
    Class的结构不像XML等描述语言,由于它没有任何分隔符号。所以在其中的数据项,无论是字节顺序还是数量,都是被严格限定的,哪个字节代表什么含义,长度是多少,先后顺序如何,都是不允许改变的。

  • Class 文件结构概述
    Class文件的结构并不是一成不变的,随着Java虚拟机的不断发展,总是不可避免地 会对Class文件结构做一些调整,但是其基本结构和框架是非常稳定的。
    Class文件的总体结构如下:

    1. 魔数
    2. Class文件版本
    3. 常量池
    4. 访问标志
    5. 类索引、父类索引、接口索引集合
    6. 字段表集合
    7. 方法表集合
    8. 属性表集合

class 字节码文件结构

类型名称说明长度数量
u4magic魔数,识别Class文件格式4个字节1
u2minor_version副版本号(小版本号)2个字节1
u2major_version主版本号(大版本号)2个字节1
u2constant_pool_count常量池计数器2个字节1
cp_infoconstant_pool常量池表n个字节constant_pool_count-1
u2access_flags访问标识2个字节1
u2this_class类索引2个字节1
u2super_class父类索引2个字节1
u2interfaces_count接口计数器2个字节1
u2interfaces接口索引集合2个字节interfaces_count
u2fields_count字段计数器2个字节1
field_infofields字段表n个字节fields_count
u2methods_count方法计数器2个字节1
method_infomethods方法表n个字节methods_count
u2attributes_count属性计数器2个字节1
attribute_infoattributes属性表n个字节attributes_count
魔数
  • 每个Class文件开头的4个字节的无符号整数称为魔数(Magic Number)。
  • 它的唯一作用就是确定这个文件是否为一个能被虚拟机接受的有效合法的Class文件。即,魔数是Class文件的标识符。
  • 魔数的固定值为0xCAFEBABE,不会改变。
  • 使用魔数而不是扩展名来进行识别主要是基于安全方法的考虑,因为文件扩展名可以随意地改动。
Class文件版本号
  • 紧接着魔数的4个字节存储的是Class文件的版本号。同样也是4个字节。第5个和第6个字节所代表的含义就是编译的副版本号minor_version,而第7个和第8个字节就是编译的主版本号major_version。

  • 它们共同构成了class文件的格式版本号。譬如某个Class文件的主版本号为M,副版本号为m,那么这个Class文件的格式版本号就确定为M.m。

  • 版本号和Java编译器的对应关系如下表:

    主版本号(十进制)副版本号(十进制)编译器版本
    4531.1
    4601.2
    4701.3
    4801.4
    4901.5
    5001.6
    5101.7
    5201.8
    5301.9
    5401.10
    5501.11
  • Java的版本号是从45开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1。

  • 不同版本的Java编译器编译的Class文件对应的版本是不一样的。目前,高版本的Java虚拟机可以执行由低版本编译器生成的Class文件,但是低版本的Java虚拟机不能执行由高版本编译生成的Class文件。否则JVM会抛出java.lang.UnsupportedClassVersionError异常。

  • 在实际应用中,由于开发环境和生产环境的不同,可能会导致该问题的发生。因此,需要我们在开发时,特别注意开发编译的JDK版本和生产环境中的JDK版本是否一致。

常量池:存放所有常量
  • 常量池是Class文件中内容最为丰富的区域之一。常量池对于Class文件中的字段和方法解析有着至关重要的作用。
  • 随着Java虚拟机的不断发展,常量池的内容也日渐丰富。可以说,常量池是整个Class文件的基石。
  • 在版本号之后,紧跟着是常量池的数量,以及若干个常量池表项。
  • 常量池中常量的数量是不固定的,所以在常量池的入口需要放置一项u2类型的无符号数,代表常量池容量计算值(constant_pool_count)。与Java中语言习惯不一样的是,这个容量计数器是从1而非0开始的。
  • 常量池表项中,用于存放编译时期生成的各种字面量和符号引用,这部分内容将在类加载后进入方法区的运行时常量池中存放。
常量池计数器 constant_pool_count
  • 由于常量池的数量不固定,时长时短,所以需要放置两个字节来表示常量池容量计数值。
  • 常量池容量计数值(u2类型):从1开始,表示常量池中由多少项常量。即constant_pool_count=1表示常量池中有0个常量项目。
常量池表 constant_pool[ ]
  • constant_pool是一种表结构,以1~constant_pool_count -1为索引,表明有多少个常量项。

  • 常量池主要存放两大类常量:字面量和符号引用。

  • 它包含了class文件结构及其子结构中引用的所有字符串常量、类或接口名、字段名和其他常量。常量池中的每一项都具备相同的特征。第一个字节作为类型标记,用于确定该项的格式,这个字节称为tag byte(标记字节、标签字节)。

    Constant TypeValue描述
    CONSTANT_Class7类或接口的符号引用
    CONSTANT_Fieldref9字段的符号引用
    CONSTANT_Methodref10类中方法的符号引用
    CONSTANT_InterfaceMethodref11接口中方法的符号引用
    CONSTANT_String8字符串类型字面量
    CONSTANT_Integer3整型字面量
    CONSTANT_Float4浮点型字面量
    CONSTANT_Long5长整型字面量
    CONSTANT_Double6双精度浮点型字面量
    CONSTANT_NameAndType12字段或方法的符号引用
    CONSTANT_Utf81UTF-8编码的字符串
    CONSTANT_MethodHandle15表示方法句柄
    CONSTANT_MethodType16标识方法类型
    CONSTANT_InvokeDynamic18动态引用
字面量和符号引用

常量池中主要存放两大类常量:字面量和符号引用。

常量具体的常量
字面量文本字符串
声明为final的常量值
符号引用类和接口的全限定名
字段的名称和描述符
方法的名称和描述符
  • 全限定名
    com/test/jvm/Demo这就是类的全限定名,仅仅是把包名的".“替换成”/",为了使连续的多个全限定名不产生混淆,在使用时最后一般会加入一个“;”表示全限定名结束。

  • 简单名称
    简单名称使指没有类型和参数修饰的方法或者字段名称。

  • 描述符
    描述符的作用是用来描述字段的数据类型,方法的参数列表(包括数量、类型以及顺序)和返回值。根据描述规则,基本数据类型(byte,char,double,float,int,long,short,boolean)以及代表无返回值的void类型都用一个大写字符来表示,而对象类型则用字符L加对象的全限定名来表示。

    标识符含义
    B基本数据类型byte
    C基本数据类型char
    D基本数据类型double
    F基本数据类型float
    I基本数据类型int
    J基本数据类型long
    S基本数据类型short
    Z基本数据类型boolean
    V数据类型void
    L对象类型,比如: Ljava/lang/Object;
    [数组类型,代表一组数组

    用描述符来描述方法时,按照先参数列表,后返回值的顺序描述,参数列表按照参数的严格顺序放在一组小括号“()”之内。如方法 java.lang.String toString()的描述符为() Ljava/lang/String;,方法int abc(int[] x, int y)的描述符为([II) I。

    虚拟机在加载Class文件时才会进行动态链接,也就是说,Class文件中不会保存各个方法和字段的最终内存布局信息,因此,这些字段和方法的符号引用不经过转换是无法直接被虚拟机使用的。当虚拟机运行时,需要从常量池中获得对应的符号引用,再在类加载过程中的解析阶段将其替换为直接引用,并翻译到具体的内存地址中。

    符号引用和直接引用的区别与关联:

    1. 符号引用:符号引用以一组符号来描述所引用的目标,符号可以是任何形式的字面量,只要使用时能无歧义地定位到目标即可。符号引用与虚拟机实现的内存布局无关,引用的目标并不一定已经加载到内存中。
    2. 直接引用:直接引用可以是直接指向目标的指针、相对偏移量或是一个能间接定位到目标的句柄。直接引用与虚拟机实现的内存布局相关的,同一个符号引用在不同的虚拟机实例上翻译出来的直接引用一般不会相同。如果有了直接引用,那说明引用的目标必定已经存在于内存之中了。
常量类型和结构

常量池中每一项常量都是一个表,JDK1.7之后共有14种不同的表结构数据。如下表个所示:

标识常量描述细节长度细节描述
1CONSTANT_utf8_infoUTF-8编码的字符串tagu1值为1
lengthu2UTF-8编码的字符串占用的字符数
bytesu1长度为length的UTF-8编码的字符串
3CONSTANT_Integer_info整型字面量tagu1值为3
bytesu4按照高位在前存储的int值
4CONSTANT_Float_info浮点型字面量tagu1值为4
bytesu4按照高位在前存储的float值
5CONSTANT_Long_info长整型字面量tagu1值为5
bytesu8按照高位在前存储的long值
6CONSTANT_Double_info双精度浮点型字面量tagu1值为6
bytesu8按照高位在前存储的double值
7CONSTANT_Class_info类或接口的符号引用tagu1值为6
indexu2指向全限定名常量项的索引
8CONSTANT_String_info字符串类型字面量tagu1值为8
indexu2指向字符串字面量的索引
9CONSTANT_Fieldref_info字段的符号引用tagu1值为9
indexu2指向声明字段的类或接口的描述符 CONSTANT_Class_info的索引项
indexu2指向字段描述符CONSTANT_NameAndType的索引项
10CONSTANT_Methodref_info类中方法的符号引用tagu1值为10
indexu2指向声明方法的类描述符CONSTANT_Class_Info的索引项
indexu2指向名称及类型描述符CONSTANT_NameAndType的索引项
11CONSTANT_InterfaceMethodref_info接口中方法的符号引用tagu1值为11
indexu2指向声明方法的接口描述符CONSTANT_Class_Info的索引项
indexu2指向名称及类型描述符CONSTANT_NameAndType的索引项
12CONSTANT_NameAndType_info字段或方法的符号引用tagu1值为12
indexu2指向该字段或方法名称常量项的索引
indexu2指向该字段或方法描述符常量项的索引
15CONSTANT_MethodHandle_info表示方法句柄tagu1值为15
reference_kindu1值必须在1-9之间,它决定了方法句柄的字节码行为
reference_indexu2值必须是对应常量池的有效索引
16CONSTANT_MethodType_info表示方法类型tagu1值为16
descriptor_indexu2值必须是对常量池的有效索引,常量池在该索引处必须是CONSTANT_utf8_info
18CONSTANT_InvokeDynamic_info表示一个动态方法调用点tagu1值为18
bootstrap_method_attru2值必须是对当前Class文件中引导方法表bootstrap_methods[]数组的有效索引
name_and_type_indexu2值必须是对当前常量池的有效索引,常量池在该索引处的项必须是CONSTANT_NameAndType_Info结构,表示方法名和方法描述
解析示例
  1. 代码:
    package bytecode;
    
    public class Demo {
    
        private int num = 1;
    
        public int add() {
            num = num + 2;
            return num;
        }
    }
    
  2. 查看 Demo.class文件,如下图:
    在这里插入图片描述
  3. 将该二进制字节码整理成excel后,解析常量池中的内容,如下图:
    在这里插入图片描述
    从该图中,可以明白如下几点:
    1. 前四个字节 CA FE BA BA(咖啡baby),用来表明该二进制文件是class文件,即表明所有的class文件都是以CA FE BA BA开头的。
    2. 紧接着两个字节是副版本号,副版本号后紧挨着的两个字节是主版本号,通过副版本号和主版本号,我们可以确定该class文件是有何种版本的jdk编译而成的。如图中,副版本号是0,主版本号34,即十进制的52,因此我们通过文章之前列出的表“Class文件版本号”可以清楚知道该class文件是由JDK 1.8生成的。
    3. 接下来的两个字节是 00和16,即十进制的22,通过公式 22 - 1 = 21 知道,常量池的数据项是21项。
    4. 紧接着是后面的21数据项,我们先从第一项的第一个字节开始。第一个字节是0A,即十进制的10,因此我们从上面的“常量类型和结构”的表格中,找到标识为10的那一行。从而得知,第一项一共占用5个字节。 即
      在这里插入图片描述
      接下来是第二项。按照如上方法,先找第二项的第一个字节,并且与常量类型和结构”的表格比对。以此,找到常量池中的所有项。
总结
  1. 常量池可以理解为Class文件中的资源仓库,它是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一。
  2. Java代码进行Javac编译的时候,并不像C和C++那样有“链接”这一步骤,而是在虚拟机加载Class文件的时候进行动态链接。也就是说,在Class文件中不会保存各个方法,字段的最终内存布局信息。因此这些方法不经过运行期转换的话无法得到真正的内存入口地址,也就无法直接被虚拟机使用。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值