什么是Java语言的编译,就是将我们写的.java文件转变成.class文件的过程。也叫前端编译器(或者编译器前端),其实Java语言的“编译期”是一段“不确定”的操作过程。
1.编译器简介
- 前端编译器:Sun的Javac,Eclipse JDT中增量式编译器(ECJ)。
把*.java文件编译成*.class文件,这是最符合我们对于Java程序编译认知的一类编译器。 - JIT编译器:HotSpot VM的C1,C2编译器。
虚拟机的后端运行期编译器,把字节码转变成机器码的过程,此类编译器对于程序的“优化”具有重要意义。 - AOT编译器:GNU Compiler for the Java(GCJ),Excelsior JET。
使用静态提前编译器,直接把.java文件编译成本地机器代码的过程。对于这个编译器,仅仅停留在听过。
可以说,Java中的即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更密切。本文主要集中介绍第一类编译器,也就是前端编译器。Javac对于代码的运行效率几乎没有任何优化措施,但是却做了针对Java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。比对后面介绍的一些Java的语法特性,都是靠编译器的“语法糖”来实现,而不是由虚拟机底层改进来支持。
2.Javac编译器
分析源码是了解一项技术的实现内幕最有效的手段,不像Hotspot虚拟机使用的是C++(包含少量的C语言),Javac编译器是由Java语言编写的程序,对于咱们Java程序员来说是个好事,对于了解它的编译过程带来了很大的遍历。关于Javac源码的构建与阅读可以在网上随便搜一艘,这里不再赘述了。
但是从Javac的源码可知,其编译过程大致可分为3个过程,分别是:
- 解析与填充符号表过程
- 插入式注解处理器的注解处理过程
- 分析与字节码生成过程
Javac的编译入口是com.sun.javac.main.JavaCompiler
类。
2.1解析与填充符号
解析步骤包括经典编译原理中的词法分析和语法分析两个过程。
2.1.1词法分析与语法分析
词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写的最小元素,而标记则是编译过程的最小元素,关键字,变量名,字面量,运算符都可以成为标记。
例如:"int a=b+2"这句代码包含6个标记,相信能一眼看出来。
虽然上面例子中的关键字int由3个字符组成,但是它只是一个Token,不可在分。在Javac的源码中,词法分析过程由com.sun.tools.javac.parser.Scanner
类来实现。
语法分析是根据Token序列构造抽象语法树(AST)的过程。所谓抽象语法树是一种用来描述程序代码语法结构的树形表示方式,语法树的每个节点都代表着程序代码中的一个语法结构,例如:类型,修饰符,运算符,接口,返回值甚至代码注释都可以是一个语法结构。
关于语法分析过程,在Javac源码中,是由com.sun.tools.javac.parser.Parser
类来实现,这个阶段产出的抽象语法树由com.sun.tools.javac.tree.JCTree
类表示,经过这个步骤之后,编译器就基本不再对源文件进行操作了,后续的操作都是建立在抽象语法树上面。
2.1.2填充符号表
完成了语法分析与词法分析之后,接下来就是填充符号表的过程。在Javac源码中,填充符号表的过程由com.sun.tools.javac.comp.Enter
类来实现。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,可以理解为哈希表中的K-V形式(实际上不一定是哈希表实现,可以是有序表,树状符号表,栈结构符号表等)。符号表所登记的信息在编译的不同阶段都要用到。
在语义分析中,符号表登记的内容将用于语义检查和产生中间代码。
在目标代码生成阶段,当对符号表进行地址分配的时候,符号表是地址分配的依据。
2.2注解处理器
在JDK1.5之前,Java语言提供了注解的支持,这些注解和普通的Java代码一样,在运行期间发挥作用。在JDK1.6中实现了JSR-269规范,提供了一组插入式注解处理器的标准API,在编译期间对注解进行处理,可以看做是编译器的插件。在这些插件里面,可以读取,修改,添加抽象语法树中的任意元素。这个过程还是稍微有些难以理解,暂时先知道这么多吧。