java跨平台的实现是基于JVM虚拟机的,编写的java源码,编译后会生成一种 .class
文件,称为字节码文件。java虚拟机就是负责将字节码文件翻译成特定平台下的机器码然后运行。为了保证Class文件在多个平台的通用性,java官方制定了严格的Class文件格式。了解Class文件结构,有利于我们反编译 .class
文件或在程序编译期间修改字节码做代码注入。
Class文件结构概览
首先先创建一个java类:
public class HelloWorld { private static int num = 0; public String name = "HelloWorld"; public static void main(String[] args) { String[] strs = {"bigkai1", "bigkai2"}; for (int i = 0; i < 10; i++) { num++; if(i == 5) continue; System.out.println("HelloWorld!"); } } } 复制代码
然后进去当前类目录下执行 javac
命令生成类文件:
$ javac HelloWorld.java 复制代码
我们便可以看到在java文件下生成了一个 HelloWorld.class
文件,使用类文件解析器 classpy
打开该文件,可以看到文件的整体结构:
Class文件的整体结构为:
ClassFile { u4 magic; u2 minor_version; u2 major_version; u2 constant_pool_count; cp_info constant_pool[constant_pool_count-1]; u2 access_flags; u2 this_class; u2 super_class; u2 interfaces_count; u2 interfaces[interfaces_count]; u2 fields_count; field_info fields[fields_count]; u2 methods_count; method_info methods[methods_count]; u2 attributes_count; attribute_info attributes[attributes_count]; } 复制代码
我将Class文件的结构做了一个简单的图示:
在JVM中,Class文件使用的是类C语言进行描述的,统一使用无符号整数作为基本数据类型:单字节 u1
、2字节 u2
、4字节 u4
、8字节 u8
。
下面就对文件各部分一一进行解析。
魔数
魔数(Magic Number)是Class文件的标识符,它是一个4字节的整数,只有当前四个字节为 0xCAFEBABE
(可以记忆为 咖啡宝贝
的英译)时,虚拟机才会认为这是一个Class文件。这种开头固定标识符的做法在很多地方用到过,比如 zip的压缩文件
。
查看我们的Class文件,是否有这个标识符:
当我人为地将 CA FE BA BE
修改为 CA FE BA BA
时,让虚拟机对类文件加载 ,虚拟机在校验文件时会抛出以下错误:
版本号
在魔数的后面,就是Class的版本号,它一共有两种:小版本号( minor_version
)和大版本号( major_version
)。它们组合起来表示当前Class文件是由哪个版本的JDK编译产生的。以下是截取自java官网的版本图:
对照此图,我们可以通过版本号查看对应的jdk版本:
在我的Class文件中,版本号为 0x0037
,换算为十进制为 55
,即对应jdk11。
对于major_version为56或以上的类文件,minor_version必须为0或65535。
对于major_version在45到55之间的类文件,minor_version可以是任何值。
当我人为的将大版本号修改为 0x0039
,即对应jdk14版本,然后加载类文件,由于我的jdk版本是11,虚拟机只能向下兼容,所以会报错:
常量池
常量池是Class文件中内容最重要的组成之一,常量池大体分为静态常量池和运行时常量池,静态常量池存放在Class文件中,运行时常量池指的是将Class文件加载进内容后,保存了常量池的方法区。这里我们解析的是静态常量池。
静态常量池的每个表项的格式为:
cp_info { u1 tag; u1 info[]; } 复制代码
tag表示指示条目所表示的常量类型。共有17种常数:
我对生成的Class文件常量池第一项进行分析:
可以看出它的 tag
是 0A
,根据上表得出它是一个 CONSTANT_Methodref
,该结构为:
CONSTANT_Methodref_info { u1 tag; u2 class_index; u2 name_and_type_index; } 复制代码
然后根据它后面的 0x000C
,得出 class_index
在常量池中第12项
class_index
的值为常量池的索引,表示具有字段或方法作为成员的类或接口类型。
- 在CONSTANT_Fieldref_info结构中,class_index项可以是类类型或接口类型。
- 在CONSTANT_Methodref_info结构中,class_index项必须是类类型,而不是接口类型。
- 在CONSTANT_InterfaceMethodref_info结构中,class_index项必须是接