[JVM]2.1 虚拟机执行子系统:类文件结构


本篇博客内容基本出自《深入理解java虚拟机》
代码编译的结果从本地机器码转变为字节码,是存储格式发展的—小步,却是编程诏言发展的一大步。

无关性的基石

Sun公司及其他虚拟机提供商发布了许多可以运行在各种不同平台上的虚拟机,这些虚拟机都可以载入和执行同一种平台无关的字节码,从而实现程序的“一次编写,到处运行”。各种不同平台的虚拟机与所有平台都统一使用的程序存储格式-字节码(ByteCode)是构成平台无关性的基石。

实现语言无关性的基础仍然是虚拟机和字节码存储格式,使用Java编译器可以把Java代码编译为存储字节码的Class文件,使用JRuby等其他语言的编译器一样可以把程序代码编译成Class文件,虚拟机不关心Class的来源是什么语言,只要它符合Class文件应有的结构就可以在Java虚拟机中运行。

Java语言中的各种变量、关键字和运算符号的语义最终都是由多条字节码命令组合而成的,因此字节码命令所能提供的语义描述能力肯定会比Java语言本身更强大。因此,有一些Java语言本身无法有效支持的语言特性并不代表字节码本身无法有效支持,这也为其他语言实现一些有别于Java的语言特性提供了基础。

Class 类文件的结构

Class文件是一组8位字节为基础单位的二进制流,各个数据项目严格按照顺序紧凑地排列在Class文件之中,中间没有添加任何分隔符,这使得整个Class文件中存储的内容几乎全部都是程序运行的必要数据,没有空隙存在。当遇到需要占用8位字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8位字节进行存储。Class文件格式采用一种类似于C语言结构体的伪结构来存储的,这种伪结构中只有两种数据类型:无符号数和表。

无符号数属于基本的数据类型,以u1、u2、u4、u8来分别代表1个字节、2个字节、4个字节和8个字节的无符号数,无符号数可以用来描述数字、索引引用、数量值,或者按照UTF-8编码构成字符串值。

表是由多个无符号数或其他表作为数据项构成的复合数据类型,所有表都习惯性地以“_info”结尾。表用于描述有层次关系的复核结构的数据,整个Class文件本质上就是一张表,它是由下表所示的数据项构成的:

类型 名称 数量
u4 magic(魔数) 1
u2 minor_version(JDK次版本号) 1
u2 major_version(JDK主版本号) 1
u2 constant_pool_count(常量池数量) 1
cp_info constan_pool(常量表) constant_pool_count-1
u2 access_flags(访问标志) 1
u2 this_class(类引用) 1
u2 super_class(父类引用) 1
u2 interfaces_count(接口数量) 1
u2 interfaces(接口数组) interfaces_count
u2 fields_count(字段数量) 1
field_info fields(属性表) fields_count
u2 methods_count(方法数量) 1
method_info methods(方法表) methods_count
u2 attributes_count(属性数量) 1
attribute_info attributes(属性表) attributes_count

类文件结构
无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这时候称这一系列连续的某一类型的数据为某一类型的集合。

Class 的结构不像XML 等描述语言,由于它没有任何分隔符号, 所以在表6-1 中的数据项,无论是顺序还是数扯,甚至于数据存储的字节序(Byte Ordering, Class 文件中字节序为Big-Endian) 这样的细节,都是被严格限定的,哪个字节代表什么含义,长度是多少,先后顺序如何,都不允许改变。

1. 魔数与Class文件的版本

每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用是用于确定这个文件是否为一个能被虚拟机接受的Class文件。很多文件存储标准中都是用魔数来进行身份识别,譬如图片格式,如gif或jpeg等在文件头中都存有魔数。使用魔数而不是扩展名来进行识别主要是基于安全考虑,因为文件扩展名可以很随意地被改动。文件格式的制定者可以自由地选择魔数值,只要这个魔数值还没有被广泛用过而且不会引起混淆即可。Class文件的魔数值为:0xCAFEBABE(咖啡宝贝?)。

紧接着魔数的4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号(Minor Version),第7个和第8个字节是主版本号(Major Version)。Java的版本号是从45开始的,JDK1.1之后的每个JDK大版本发布主版本号向上加1(JDK1.0–1.1使用了45.0–45.3的版本号),高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,即时文件格式并未发生变化。

2. 常量池

紧接着主次版本号之后的是常量池入口,常量池是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据项目之一,同时它还是在Class文件中第一个出现的表类型的数据项目。

由于常量池中常量数量不固定,所以在常量池的入口需要放置一项u2类型的数据,代表常量池容量计数值(constant_pool_count)。这个容量计数是从1而不是0开始的。常量池容量(偏移地址:0x00000008)为十六进制数0x0016,即十进制的22,这就代表常量池中有21项常量,索引值为1–21。制定Class文件格式规范时,将第0项常量空出来是有特殊考虑的,这样做是为了满足后面某些指向常量池的索引值的数据在特定情况下需要表达“不引用任何一个常量池项目”的意思,这种情况就可以把索引值置为0来表示。Class文件结构中只有常量池的容量计数是从1开始的,对于其他集合类型,包括接口索引集合、字段表集合、方法表集合等的容量技术都与一般习惯相同,是从0开始的。

常量池中主要存放两大类常量:字面量(Literal)和符号引用(Symbolic References)。字面量比较接近于Java语言层面的常量概念,如文本字符串、被声明为final的常量值等。而符号引用则属于编译原理方面的概念,包括下面三类常量:

  1. 类和接口的全限定名(Fully Qualified Name)
  2. 字段的名称和描述符(Descriptor)
  3. 方法的名称和描述符

Java代码在进行Javac编译的时候,并不像C和C++那样有“连接”这一步骤,而是在虚拟机加载Class文件的时候进行动态连接。也就是说,在Class文件中不会保存各个方法和字段的最终内存布局信息,因此这些字段和方法的符号引用不经过转换的话是无法直接被虚拟机使用的。当虚拟机运行时,需要从常量池获得对应的符号引用,再在类创建时或运行时解析并翻译到具体的内存地址中。

常量池中每一项常量都是一个表,共有14种结构各不相同的表结构数据,这14种表都有一个共同的特点,就是表开始的第一位是一个u1类型的标志位,代表当前这个常量属于哪种常量类型,14种常量类型所代表的具体含义如下表:

之所以说常量池是最繁琐的数据,是因为这11种常量类型各自均有自己的结构。

3. 访问标志

常量池结束后,紧接着的2个字节代表访问标志(access_flags),这个标志用于识别一些类或借口层次的访问信息,包括:这个Class是类还是接口;是否定义为public类型;是否定义为abstract类型;如果是类的话,是否被声明为final等;access_flags中一共有16个标志位可以使用,当前只定义了其中8个,没有用到的标志位要求一律为0.

4. 类索引、父类索引与接口索引集合

类索引(this_class)和父类索引(super_class)都是一个u2类型的数据,而接口索引集合(interfaces)是一组u2类型的数据的集合,Class文件由这三项数据来确定这个类的继承关系。

类索引用于确定这个类的全限定名,父类索引用于确定这个类的父类的全限定名。由于Java语言不允许多重继承,所以父类索引只有一个,除了java.lang.Object之外,所有的Java类都有父类,因此除了java.lang.Object外,所有Java类的父类索引都不为0。接口索引集合就用来描述这个类实现了哪些接口,这些被实现的接口将按implements语句(如果这个类本身是一个接口,则应当是extends语句)后的接口顺序从左到右排列在接口的索引集合中。

类索引、父类索引和接口索引集合都按顺序排列在访问标志之后,类索引和父类索引用两个u2类型的索引值表示,它们各自指向一个类型为CONSTANT_Class_info的类描述符常量,通过CONSTANT_Class_info类型的常量中的索引值可以找到定义在CONSTANT_Utf8_info类型的常量中的全限定名字符串。

对于接口索引集合,入口的第一项—u2类型的数据为借口计数器(interfaces_count),表示索引表的容量。如果该类没有任何借口,那么该计数器值为0,后面的接口的索引表不再占用任何字节。<

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值