javac编译器的编译过程大概分为三步:
1、解析与填充符号表
1.1、词法分析
将源代码的字符流转变为标记(Token)集合,单个字符是程序编写时的最小元素,而单个Token是程序编译时的最小元素。关键字、变量名、字面量、运算符都可以看作是Token。
1.2、语法分析
根据词法分析产生的Token生成一个抽象语法树(Abstract Syntax Tree,AST),语法树中的每一个节点都表示程序中的一个语法结构,比如包、类、接口、返回值、运算符、修饰符等。
抽象语法树生成后,编译器就基本不会再对源码文件操作了,后续的操作都建立在抽象语法树之上。
1.3、填充符号表
符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,其中所登记的信息在编译的不同阶段都要用到。
- 在语义分析中:符号表所登记的内容将用于语义检查(如检查一个名字的使用和原先的说明是否一致)和产生中间代码。
- 在目标代码生成阶段:当对符号名进行地址分配时,符号表是地址分配的依据。
填充符号表的出口是一个待处理列表(To Do List),包含了每一个编译单元的抽象语法树的顶级节点。
2、注解处理器
注解处理器负责解析程序中的注解并将其动态插入到抽象语法树上。如果需要对抽象语法树进行改动,则会重新回到第一步(解析与填充符号表)去重新生成语法树。
3、语义分析与字节码生成
语义分析的目的就是为了保证源代码符合逻辑。
3.1、标记检查
比如检查变量在使用前是否已经被声明,变量与赋值之间的数据类型是否能够匹配、常量折叠(比如int i = 1 + 1; 优化为 int i = 2;)等。
3.2、数据及控制流分析
数据及控制流分析是对程序上下文逻辑更进一步的验证,比如检查程序局部变量在使用前是否有赋值,方法的每条路径是否都有返回值,是否所有的受查异常都被正确处理了等。
3.3、解语法糖
可变长参数、自动拆装箱、泛型、增强for循环等在运行时JVM是不支持这些语法的,因此需要在编译阶段将其还原成简单的基础语法结构。
3.4、字节码生成
字节码生成阶段不仅仅是把前面各个步骤所生成的信息(语法树、符号表)转化成字节码写到磁盘中,编译器还进行了少量的代码添加和转换工作,比如把字符串的加操作替换为StringBuilder的append()操作等。