字节码概述
1.class文件构成基础
在class文件中,数据都是以二进制流的形式存储。这些字节流之间按照规定顺序排列,字节
之间不存在空隙,对于超过8位的数据,将按照大端的顺序存储(即高位字节存储在低的地址上,低位存
储到高地址上)。
2.class文件的10个组成结构
class字节码采用类C语言的结构体来存储数据,主要有两类数据项:无符号数和表。
无符号数用来表示数字、索引引用以及字符串等。
表是由多个无符号数以及其它表组成的复合结构。
一个字节码文件主要由以下10部分组成的:
- MagicNumber
- Version
- Constant_pool
- Access_flag
- This_class
- Super_class
- Interfaces
- Fields
- Methods
- Attributes
用一个数据结构表示如下:
ClassFile{
u4 magic;
u2 minor_version;
u2 major_version;
u2 constant_pool_count;
cp_info constant_pool[constant_pool_count-1];
u2 access_flags;
u2 this_class;
u2 super_class;
u2 interface_count;
u2 interfaces[interfaces_count];
u2 fields_count;
field_info fields[fields_count];
u2 methods_count;
method_info methods[methods_count];
u2 attributes_count;
attribute_info attributes[attributes_count];
}
magic:固定值,0xCAFEBABE。用于检查是不是字节码文件。
version: minor_version是次版本号,major_version是主版本号,用于检查字节码文件是否高于当前jvm的版本。
constant_pool_count:常量池包含了多少个常量
constant_pool:存放字面常量和符号引用。
access_flags:访问权限
this_class:当前类的全限定名在常量池中的索引。
super_class:当前类的父类在常量池中的索引
interface_count:接口的数量
interfaces[interfaces_count]:一个数组,u2型的,存放的是实现的接口在常量池中的索引
fields_count:字段(类变量和实力变量)的数量
fields[fields_count]:所有的字段(类变量和实力变量)信息
methods_count:类或接口显示定义的方法的数量
methods:方法的详细信息
字节码解析
举个例子分析下字节码文件,下面展示的分别是 源码、字节码描述以及十六进制的字节码文件。
源码:
package bytecode;
public class Test1 {
public int a=3;
static Integer si=6;
String s="Hello world";
public static void main(String[] args) {
Test1 test1=new Test1();
test1.a=8;
si=9;
}
private void test(){
this.a=a;
}
}
字节码:
D:\项目\study\out\production\study>javap -verbose bytecode.Test1
Classfile /D:/项目/study/out/production/study/bytecode/Test1.class
Last modified 2018-10-2; size 785 bytes
MD5 checksum 45e77edec595155674683f83161315c2
Compiled from "Test1.java"
public class bytecode.Test1
minor version: 0
major version: 52
flags: ACC_PUBLIC, ACC_SUPER
Constant pool:
#1 = Methodref #9.#32 // java/lang/Object."<init>":()V
#2 = Fieldref #5.#33 // bytecode/Test1.a:I
#3 = String #34 // Hello world
#4 = Fieldref #5.#35 // bytecode/Test1.s:Ljava/lang/String;
#5 = Class #36 // bytecode/Test1
#6 = Methodref #5.#32 // bytecode/Test1."<init>":()V
#7 = Methodref #37.#38 // java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
#8 = Fieldref #5.#39 // bytecode/Test1.si:Ljava/lang/Integer;
#9 = Class #40 // java/lang/Object
#10 = Utf8 a
#11 = Utf8 I
#12 = Utf8 si
#13 = Utf8 Ljava/lang/Integer;
#14 = Utf8 s
#15 = Utf8 Ljava/lang/String;
#16 = Utf8 <init>
#17 = Utf8 ()V
#18 = Utf8 Code
#19 = Utf8 LineNumberTable
#20 = Utf8 LocalVariableTable
#21 = Utf8 this
#22 = Utf8 Lbytecode/Test1;
#23 = Utf8 main
#24 = Utf8 ([Ljava/lang/String;)V
#25 = Utf8 args
#26 = Utf8 [Ljava/lang/String;
#27 = Utf8 test1
#28 = Utf8 test
#29 = Utf8 <clinit>
#30 = Utf8 SourceFile
#31 = Utf8 Test1.java
#32 = NameAndType #16:#17 // "<init>":()V
#33 = NameAndType #10:#11 // a:I
#34 = Utf8 Hello world
#35 = NameAndType #14:#15 // s:Ljava/lang/String;
#36 = Utf8 bytecode/Test1
#37 = Class #41 // java/lang/Integer
#38 = NameAndType #42:#43 // valueOf:(I)Ljava/lang/Integer;
#39 = NameAndType #12:#13 // si:Ljava/lang/Integer;
#40 = Utf8 java/lang/Object
#41 = Utf8 java/lang/Integer
#42 = Utf8 valueOf
#43 = Utf8 (I)Ljava/lang/Integer;
{
public int a;
descriptor: I
flags: ACC_PUBLIC
static java.lang.Integer si;
descriptor: Ljava/lang/Integer;
flags: ACC_STATIC
java.lang.String s;
descriptor: Ljava/lang/String;
flags:
public bytecode.Test1();
descriptor: ()V
flags: ACC_PUBLIC
Code:
stack=2, locals=1, args_size=1
0: aload_0
1: invokespecial #1 // Method java/lang/Object."<init>":()V
4: aload_0
5: iconst_3
6: putfield #2 // Field a:I
9: aload_0
10: ldc #3 // String Hello world
12: putfield #4 // Field s:Ljava/lang/String;
15: return
LineNumberTable:
line 3: 0
line 4: 4
line 6: 9
LocalVariableTable:
Start Length Slot Name Signature
0 16 0 this Lbytecode/Test1;
public static void main(java.lang.String[]);
descriptor: ([Ljava/lang/String;)V
flags: ACC_PUBLIC, ACC_STATIC
Code:
stack=2, locals=2, args_size=1
0: new #5 // class bytecode/Test1
3: dup
4: invokespecial #6 // Method "<init>":()V
7: astore_1
8: aload_1
9: bipush 8
11: putfield #2 // Field a:I
14: bipush 9
16: invokestatic #7 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
19: putstatic #8 // Field si:Ljava/lang/Integer;
22: return
LineNumberTable:
line 9: 0
line 10: 8
line 11: 14
line 12: 22
LocalVariableTable:
Start Length Slot Name Signature
0 23 0 args [Ljava/lang/String;
8 15 1 test1 Lbytecode/Test1;
static {};
descriptor: ()V
flags: ACC_STATIC
Code:
stack=1, locals=0, args_size=0
0: bipush 6
2: invokestatic #7 // Method java/lang/Integer.valueOf:(I)Ljava/lang/Integer;
5: putstatic #8 // Field si:Ljava/lang/Integer;
8: return
LineNumberTable:
line 5: 0
}
SourceFile: "Test1.java"
字节码对应的16进制文件
关于字节码每种类型具体由那些数字代表,可以看十二篇。
0-3这4个字节是cafebabe,表示魔数,用于判断是不是.class字节码文件。
4-7这4个字节是0x00000034,表示52,也就是jdk1.8编译的。
接下来是常量池
8-9这2个字节是0x002c是44,表示常量池共有43(jvm规定不使用第0个元素)个元素。
后面的常量池元素,每个都是u1开头,表示类型。
a这个字节是10,表示CONSTANT_Methodref_info,这是一个方法的符号引用。
b-c这两个字节是9,表示指向常量池低9个元素,而常量池第九个元素是Class类型的,又指向常量池第40号元素,这是一个字符串常量java/lang/Object
d-e这两个字节是32,表示指向常量池第32个元素,这是一个nametype,分别指向常量池第16,17号元素,也是2个字符串,方法名:, 方法描述符 ()V
剩下的常量池部分和上面分析方法差不多,就不再赘述了.
下一个问题是常量池在哪结束?
类型 | 长度 |
---|---|
Methodref | 5 |
Fieldref | 5 |
String | 3 |
Class | 3 |
int | 5 |
utf-8 | 3+n |
nameandtype | 5 |
常量池第一个元素位置为0x0000 000a
常量池共有43个元素,共占用字节为:
1-8: 5+5+3+5+3+5+5+5=36字节
9-16: 3+4+4+5+22+4+21+9=72字节
0x 0000 0076
17-24:6+7+18+21+7+19+7+25=110字节
0x0000 00e4
25-32: 7+22+8+7+11+13+13+5=86字节
0x0000 013a
33-40: 5+14+5+17+3+5+5+19=73字节
0x0000 0183
41-43:20+10+25=55字节
所以常量池最后一个字节地址是0x0000 01b9。
举例分析:
第10个元素是0x0000 0031处的,长度为1,所以第10个元素占用4个字节。
第11个元素是0x0000 0035处的,长度为1,所以第11个元素占用4个字节。
第12个元素是0x0000 003d处的,长度为2,所以第12个元素占用5个字节。
0x0000 01ba-0x0000 01bb 是访问标识access_flags,0x0021,表示ACC_PUBLIC,ACC_SUPER(含义参考第十二篇)。
this_class。接口类型是u2,占用2个字节。记录当前类的全限定名的常量池索引。0x0005,指向第5个常量池元素。#5 = Class #36 // bytecode/Test1。第5个元素是class结构的,又指向第36号元素,第36号是utf8编码的字符串,bytecode/Test1。
super_class。父类的全限定名的常量池索引。占用2个字节。指向常量池9号元素。
interface_count,占用2个字节
0x0000 01c0-0x0000 01c1,值为0x0000,表示这个类没有实现接口。
字段信息
field_count 0x0003,有3个字段。
紧跟其后的是field结构(具体组成在第十二篇)。
访问标识0x0001,表示为public,无其它修饰,0x000a指向第10个元素a,也就是字段名,0x000b指向11个元素I,也就是字段描述符。
从0x0000 01dc开始,就是方法信息。
首先是,methods_count,2个字节
0x0004,表示一共有4个方法。
之所以有4个,是因为编译器会自动增加一个void < clint>()方法,用于执行所有静态变量的初始化,以及静态代码的执行。
同时,源代码中没有定义默认的构造方法,所以编译器自动增加了一个构造方法< init>。
0x0000 01de是第一个方法:
00 01 00 10 00 11 00 01
public init ()v 1个属性
属性名索引0x00 12 ,常量池第18个是Code。
00 00 00 42 属性长度 66
下图紫色部分的66个字节属于init方法的Code属性内容,
所以init方法的地址是 0x0000 01de-0x0000 022e之间(不包含结尾地址)。
Code的attributes_length,包含了它内部的子属性的长度,也就是说这个attribute是总长度。
code属性有2个子属性,分别是19号LineNumberTable和20号LocalVariableTable属性。
0x0000 0010表示init方法的字节码长度为16,字节码指令的长度都是1字节,每个字节码后面跟着固定长度的操作数,也有不带操作数的,解析字节码时,查阅字节码字典解析。紫色区域前4个字节是长度,后16个字节是实际的字节码指令。