编译器之后端原理(三十六)

最新推荐文章于 2024-06-26 10:54:42 发布

Android系统攻城狮

最新推荐文章于 2024-06-26 10:54:42 发布

阅读量5.2k

点赞数 1

分类专栏： C语言进阶系列文章标签：编译原理

原文链接：https://blog.csdn.net/qq_33588730/article/details/109137196

版权

C语言进阶系列专栏收录该内容

114 篇文章 30 订阅

订阅专栏

一、编译器的后端技术
1. 编译器的前端技术，重点是让编译器能够读懂程序，无结构的代码文本经过前端的处理以后，就变成了Token、AST和语义属性、符号表等结构化的信息，基于这些信息，可以实现简单的脚本解释器。但很多情况下，需要继续把程序编译成机器能读懂的代码，并高效运行。这时就面临了三个问题：

（1）必须了解计算机运行一个程序的原理（也就是运行期机制），只有这样才知道如何生成这样的程序。

（2）要能利用前端生成的AST和属性信息，将其正确翻译成目标代码。

（3）需要对程序做尽可能多的优化，比如让程序执行效率更高，占空间更少等等。

弄清这三个问题，是顺利完成编译器后端工作的关键。总的来说，编译器后端要解决的问题是：一台计算机怎么生成一个可以运行的程序，然后还能让这个程序在计算机上正确和高效地运行？下图是一个模型：

基本上需要面对的是两个硬件：

（1）CPU。它能接受机器指令和数据，并进行计算。它里面有寄存器、高速缓存和运算单元，充分利用寄存器和高速缓存会让系统的性能大大提升。

（2）内存。要在内存里保存编译好的代码和数据，还要设计一套机制，让程序最高效地利用这些内存。

可以看出，编译器后端技术跟计算机体系结构的关系很密切，例如运行期的机制里内存空间如何划分和组织；程序是如何启动、跳转和退出的；执行过程中指令和数据如何传递到CPU；整个过程中需要如何跟操作系统配合，等等。对运行期机制有了一定的了解之后，就可以进行下一步即生成符合运行期机制的代码。

2. 编译器后端的最终结果就是生成目标代码。如果目标是在计算机上直接运行，就像C语言程序那样，那这个目标代码指的是汇编代码。而如果运行目标是Java虚拟机，那这个目标代码就是指JVM的字节码。写汇编跟使用高级语言有很多不同，其中一点就是要关心CPU和内存这样具体的硬件，比如需要了解不同的CPU指令集的差别，还需要知道CPU是64位的还是32位的，有几个寄存器，每个寄存器可以用于什么指令等等。但这样导致的问题是，每种语言针对每种不同的硬件，都要生成不同的汇编代码。

所以为了降低后端工作量，提高软件复用度，就需要引入中间代码（Intermediate Representation，IR）的机制，它是独立于具体硬件的一种代码格式。各个语言的前端可以先翻译成IR，然后再从IR翻译成不同硬件架构的汇编代码。如果有n个前端语言和m个后端架构，本来需要做m*n个翻译程序，现在只需要m+n个了，大大降低了总体的工作量，如下图所示：

甚至很多语言主要做好前端就行了，后端可以尽量重用已有的库和工具，这也是现在推出新语言越来越快的原因之一。像Rust就充分利用了LLVM；GCC的各种语言如C、C++、Object C等也是充分共享了后端技术。IR可以有多种格式，比如“x + y * z”翻译成三地址代码是下面的样子，每行代码最多涉及三个地址，其中t1和t2是临时变量：

t1 := y * z

t2 := x + t1
Java语言生成的字节码也是一种IR，IR是一种中间表达方式，不一定非是像汇编代码那样的一条条的指令。所以AST其实也可以看做一种IR，在前端部分实现的脚本语言，就是基于AST这个IR来运行的。每种IR的目的和用途是不一样的：

（1）AST主要用于前端的工作。

（2）Java的字节码，是设计用来在虚拟机上运行的。

（3）LLVM的中间代码，主要是用于做代码翻译和编译优化的。

3. 总的来说，可以把各种语言翻译成中间代码，再针对每一种目标架构，通过一个程序将中间代码翻译成相应的汇编代码就可以了。生成正确的、能够执行的代码比较简单，可这样的代码执行效率很低，因为直接翻译生成的代码往往不够简洁，比如会生成大量的临时变量，指令数量也较多。因为翻译程序首先照顾的是正确性，很难同时兼顾是否足够优化。另一方面，由于高级语言本身的限制和程序员的编程习惯，也会导致代码不够优化，不能充分发挥计算机的性能。所以一定要对代码做优化。

优化工作又分为“独立于机器的优化”和“依赖于机器的优化”两种。独立于机器的优化是基于IR进行的，它可以通过对代码的分析，用更加高效的代码代替原来的代码。比如下面这段代码中的foo()函数，里面有多个地方可以优化，甚至连整个对foo()函数的调用也可以省略，因为foo()的值一定是101，这些优化工作在编译期都可以去做：

int foo(){
int a = 10*10; //这里在编译时可以直接计算出100这个值
int b = 20; //这个变量没有用到，可以在代码中删除

if (a>0){ //因为a一定大于0，所以判断条件和else语句都可以去掉
return a+1; //这里可以在编译器就计算出是101
}
else{
return a-1;
}
}
int a = foo(); //这里可以直接地换成 a=101;
依赖于机器的优化，则是依赖于硬件的特征。现代的计算机硬件设计了很多特性，以便提供更高的处理能力，比如并行计算能力、多层次内存结构（使用多个级别的高速缓存）等等。编译器要能够充分利用硬件提供的性能，比如：

（1）寄存器优化。对于频繁访问的变量，最好放在寄存器中，并且尽量最大限度地利用寄存器，不让其中一些空着，有不少算法是解决这个问题的，教材上一般提到的是染色算法；

（2）充分利用高速缓存。高速缓存的访问速度可以比内存快几十倍上百倍，所以要尽量利用高速缓存。比如，某段代码操作的数据，在内存里尽量放在一起，这样CPU读入数据时，会一起都放到高速缓存中，不用一遍一遍地重新到内存取。

（3）并行性。现代计算机都有多个内核可以并行计算，编译器要尽可能充分利用多个内核的计算能力。

（4）流水线。CPU在处理不同指令的时候，需要等待的时间周期是不一样的，在等待某些指令做完的过程中其实还可以执行其他指令。

（5）指令选择。有时候CPU完成一个功能，有多个指令可供选择。而针对某个特定的需求，采用A指令可能比B指令效率高百倍。比如X86架构的CPU提供SIMD功能，也就是一条指令可以处理多条数据，而不是像传统指令那样一条指令只能处理一条数据。在内存计算领域，SIMD也可以大大提升性能。

（6）其他优化。比如可以针对专用的AI芯片和GPU做优化，提供AI计算能力等等。

可以看出，做好依赖于机器的优化要对目标机器的体系结构有清晰的理解，这样开发一些系统级的软件也会更加得心应手。实际上，数据库系统、大数据系统等等都是要融合编译技术的。在编译器中需要对代码进行的优化非常多。因此，优化工作也是编译过程中耗时最长、最体现某个编译器功力的一类工作。

编译器的后端，是要把高级语言翻译成计算机能够理解的目标语言。它跟前端相比关注点是不同的。前端关注的是正确反映了代码含义的静态结构，而后端关注的是让代码良好运行的动态结构，例如作用域是前端的概念，而生存期是后端的概念。

二、运行时机制
4. 程序运行的过程中，主要是跟两个硬件（CPU和内存）以及一个软件（操作系统）打交道，如下图所示：

大部分程序本质上只关心CPU和内存这两个硬件。对于CPU重点关注的是寄存器以及高速缓存，它们跟程序的执行机制和优化密切相关。寄存器是CPU指令在进行计算时临时数据存储的地方。CPU指令一般都会用到寄存器，比如加法计算（c=a+b）的过程是这样的：

（1）指令1（mov）：从内存取a的值放到寄存器中；

（2）指令2（add）：再把内存中b的值取出来与这个寄存器中的值相加，仍然保存在寄存器中；

（3）指令3（mov）：最后再把寄存器中的数据写回内存中c的地址。

寄存器的速度也很快，所以能用寄存器就别用内存。尽量充分利用寄存器，是编译器做优化的内容之一。而高速缓存可以弥补CPU的处理速度和内存访问速度之间的差距，所以指令在内存读一个数据时，它不是只读进当前指令所需要的数据，而是把跟这个数据相邻的一组数据都读进高速缓存了。因此写程序时，应尽量把某个操作所需的数据都放在内存中的连续区域中，不要零零散散地到处放，这样有利于充分利用高速缓存。这种优化思路，叫做数据的局部性。

程序在运行时，操作系统会给它分配一块虚拟的内存空间，让它在运行期可以使用。目前使用的都是64位的机器，可以用一个64位的长整型来表示内存地址，它能够表示的所有地址叫做寻址空间。64位机器的寻址空间就有2的64次方那么大，达到TB级别。在存在操作系统的情况下，程序逻辑上可使用的内存一般大于实际的物理内存。程序在使用内存时，操作系统会把程序使用的逻辑地址映射到真实的物理内存地址，有的物理内存区域会映射进多个进程的地址空间，如下图所示：

对于不太常用的内存数据，操作系统会写到磁盘上，以便腾出更多可用的物理内存。当然也存在没有操作系统的情况，这个时候程序所使用的内存就是物理内存，必须自己做好内存的管理。

5. C语言和Java虚拟机对内存的管理和使用策略就是不同的。尽管如此，大多数语言还是会采用一些通用的内存管理模式。以C语言为例，会把内存划分为代码区、静态数据区、栈和堆，如下图所示：

一般来讲，代码区是在最低的地址区域，然后是静态数据区、堆。而栈传统上是从高地址向低地址延伸，栈的最顶部有一块区域，用来保存环境变量。

（1）代码区（也叫文本段）存放编译完成以后的机器码。这个内存区域是只读的不会再修改，但也不绝对。现代语言的运行时已经越来越动态化，除了保存机器码还可以存放中间代码，并且还可以在运行时把中间代码编译成机器码，写入代码区。

（2）静态数据区保存程序中全局的变量和常量。它的地址在编译期就是确定的，在生成的代码里直接使用这个地址就可以访问它们，它们的生存期是从程序启动一直到程序结束。它又可以细分为Data和BSS两个段。Data段中的变量是在编译期就初始化好的，直接从程序装载进内存。BSS段中是那些没有声明初始化值的变量，都会被初始化成0。

（3）堆适合管理生存期较长的一些数据，这些数据在退出作用域以后也不会消失。比如在某个方法里创建了一个对象并返回，并希望代表这个对象的数据在退出函数后仍然可以访问。

（4）栈适合保存生存期比较短的数据，比如函数和方法里的本地变量。它们在进入某个作用域的时候申请内存，退出这个作用域的时候就可以释放掉。

再来看看跟程序打交道的操作系统。一方面程序可以编译成不需要操作系统也能运行，就像一些物联网应用完全跑在裸设备上；另一方面，有了操作系统的帮助可以为程序提供便利，比如可以使用超过物理内存的存储空间，操作系统负责进行虚拟内存的管理。程序在操作系统中需要遵守的约定包括：程序文件的二进制格式约定，这样操作系统才能将程序正确地加载进来，并为同一个程序的多个进程共享代码区。在使用寄存器和栈时也要遵守一些约定，便于操作系统在不同进程之间切换、做系统调用时，做好上下文的保护。

6. 接下来看看程序运行的过程。首先，可运行的程序一般是由操作系统加载到内存的，并且定位到代码区里程序的入口开始执行，比如C语言的main函数的第一行代码。每次加载一条代码程序都会顺序执行，碰到跳转语句才会跳到另一个地址执行。CPU里有一个指令寄存器，里面保存了下一条指令的地址，如下图所示：

假设运行这样一段代码编译后形成的程序：

int main(){
int a = 1;
foo(3);
bar();
}

int foo(int c){
int b = 2;
return b+c;
}

int bar(){
return foo(4) + 1;
}
上面代码首先激活（Activate）了main()函数，main()函数又激活foo()函数，然后又激活bar()函数，bar()函数还会激活foo()函数，其中foo()函数被两次以不同的路径激活：

把每次调用一个函数的过程，叫做一次活动（Activation）。每个活动都对应一个活动记录（Activation Record），这个活动记录里有这个函数运行所需要的信息，比如参数、返回值、本地变量等。目前用栈来管理内存，所以可以把活动记录等价于栈桢。栈桢是活动记录的实现方式，可以自由设计活动记录或栈桢的结构，下图是一个常见的设计：

（1）返回值：一般放在最顶上，这样它的地址是固定的。foo()函数返回以后，它的调用者可以到这里来取到返回值。在实际情况中会优先通过寄存器来传递返回值，比通过内存传递性能更高。

（2）参数：在调用foo函数时，把参数写到这个地址里。同样也可以通过寄存器来传递，而不是内存。

（3）控制链接：就是上一级栈桢的地址。如果用到了上一级作用域中的变量，就可以顺着这个链接找到上一级栈桢，并找到变量的值。

（4）返回地址：foo函数执行完毕以后，继续执行哪条指令。同样，可以用寄存器来保存这个信息。

（5）本地变量：foo函数的本地变量b的存储空间。

（6）寄存器信息：函数还经常在栈桢里保存寄存器的数据。如果在foo函数里要使用某个寄存器，可能需要先把它的值保存下来，防止破坏了别的代码保存在这里的数据。这种约定叫做被调用者责任，也就是使用寄存器的人要保护好寄存器里原有的信息。某个函数如果使用了某个寄存器，但它又要调用别的函数，为了防止别的函数把自己放在寄存器中的数据覆盖掉，要自己保存在栈桢中。栈的结构如下图所示：

可以看到，栈桢就是一块确定的内存，变量就是这块内存里的地址。每个栈桢的长度是不一样的。用到的参数和本地变量多，栈桢就要长一点。但是栈桢的长度和结构是在编译期就能完全确定的，这样就便于计算地址的偏移量，获取栈桢里某个数据。总的来说栈桢的设计很自由，但是要考虑不同语言编译形成的模块要能够链接在一起，所以还是要遵守一些公共的约定，否则自己写的函数别人就没办法调用了。

7. 了解了栈桢的实现之后，再来看一个更大的场景，从全局的角度看看整个运行过程中都发生了什么，如下图所示：

代码区里存储了一些代码，main函数、bar函数和foo函数各自有一段连续的区域来存储代码，上图中用了一些汇编指令来表示这些代码，不过实际运行时这里其实是机器码。假设执行到foo函数中的一段指令，来计算“b+c”的值并返回，这里用到了mov、add、jmp这三个指令，mov是把某个值从一个地方拷贝到另一个地方，add是往某个地方加一个值，jmp是改变代码执行的顺序，跳转到另一个地方去执行，如下所示：

mov b的地址寄存器1
add c的地址寄存器1
mov 寄存器1 foo的返回值地址
jmp 返回地址 //或ret指令
执行完这几个指令以后，foo的返回值位置就写入了6，并跳转到bar函数中执行foo之后的代码。这时foo的栈桢就没用了，新的栈顶是bar的栈桢的顶部。理论上讲操作系统这时可以把foo的栈桢所占的内存收回了，比如可以映射到另一个程序的寻址空间，让另一个程序使用。但是在这个例子中会看到，即使返回了bar函数仍要访问栈顶之外的一个内存地址，也就是返回值的地址。

所以，目前的调用约定都规定，程序的栈顶之外仍然会有一小块内存（比如128K）是可以由程序访问的，比如可以拿来存储返回值，这一小段内存操作系统并不会回收。堆的使用也类似，只不过是要手工进行申请和释放，比栈要多一些维护工作。

三、生成汇编代码
8. 对于静态编译型语言，比如C和Go语言，编译器后端的任务就是生成汇编代码，然后再由汇编器生成机器码，生成的文件叫目标文件，最后再使用链接器就能生成可执行文件或库文件了，如下图所示：

就算像JavaScript这样的解释执行语言，也要在运行时利用类似的机制生成机器码，以便提高执行的速度。Java的字节码，在运行时通常也会通过JIT机制编译成机器码，而汇编语言是完成这些工作的基础。机器语言都是0101的二进制数据，不适合人类阅读，而汇编语言是可读性更好的机器语言，基本上每条指令都可以直接翻译成一条机器码。跟日常使用的高级语言相比，汇编语言的语法特别简单，但它要跟硬件（CPU和内存）打交道。

计算机的处理器有很多不同的架构，比如x86-64、ARM、Power等，每种处理器的指令集都不相同，那也就意味着汇编语言不同。下面用C语言的例子来生成一下汇编代码：

#include <stdio.h>
int main(int argc, char* argv[]){
printf("Hello %s!\n", "Richard");
return 0;
}
在macOS中输入下面的命令，其中的-S参数就是告诉编译器把源代码编译成汇编代码，而-O2参数告诉编译器进行2级优化，这样生成的汇编代码会短一些：

clang -S -O2 hello.c -o hello.s
或者：

gcc -S -O2 hello.c -o hello.s
生成的汇编代码是下面的样子：

.section __TEXT,__text,regular,pure_instructions
.build_version macos, 10, 14 sdk_version 10, 14
.globl _main ## -- Begin function main
.p2align 4, 0x90
_main: ## @main
.cfi_startproc
## %bb.0:
pushq %rbp
.cfi_def_cfa_offset 16
.cfi_offset %rbp, -16
movq %rsp, %rbp
.cfi_def_cfa_register %rbp
leaq L_.str(%rip), %rdi
leaq L_.str.1(%rip), %rsi
xorl %eax, %eax
callq _printf
xorl %eax, %eax
popq %rbp
retq
.cfi_endproc
## -- End function
.section __TEXT,__cstring,cstring_literals
L_.str: ## @.str
.asciz "Hello %s!\n"

L_.str.1: ## @.str.1
.asciz "Richard"

.subsections_via_symbols
如果再打下面的命令，就会把这段汇编代码编译成可执行文件（在macOS或Linux执行as命令，就是调用了GNU的汇编器）：

as hello.s -o hello.o //用汇编器编译成目标文件
gcc hello.o -o hello //链接成可执行文件
./hello //运行程序
以上面的代码为例，来看一下汇编语言的组成元素。这段代码里有指令、伪指令、标签和注释四种元素，每个元素单独占一行。指令（instruction）是直接由CPU进行处理的命令，例如：

pushq %rbp
movq %rsp, %rbp
其中，开头的一个单词是助记符（mnemonic），后面跟着的是操作数（operand），有多个操作数时以逗号分隔。第二行代码的意思是把数据从这里（源）拷贝到那里（目的）。而伪指令以“.”开头，末尾没有冒号“：”，如下所示：

.section __TEXT,__text,regular,pure_instructions
.globl _main
.asciz "Hello %s!\n"
伪指令是是辅助性的，汇编器在生成目标文件时会用到这些信息，但伪指令不是真正的CPU指令，只是写给汇编器的，每种汇编器的伪指令也不同。

标签以冒号“:”结尾，用于对伪指令生成的数据或指令做标记，例如L_.str:标签是对一个字符串做了标记。其他代码可以访问标签，例如跳转到这个标签所标记的指令，如下所示：

L_.str: ## @.str
.asciz "Hello %s!\n"
标签很有用，它可以代表一段代码或者常量的地址（即在代码区或静态数据区中的位置）。可一开始没法知道这个地址的具体值，必须生成目标文件后才能算出来，所以标签会简化汇编代码的编写。第四种元素是注释，以“#”号开头，这跟C语言中以//表示注释语句是一样的。

9. 指令是汇编代码的主要部分，在代码中助记符“movq”、“xorl”中的“mov”和“xor”是指令，而“q”和“l”叫作后缀表示操作数的位数。后缀一共有b, w, l, q四种，分别代表8、16、32和64位，如下图所示：

比如movq中的q代表操作数是8个字节也就是64位的，也就是把8字节从一个地方拷贝到另一个地方，而movl则是拷贝4个字节。而在指令中使用操作数，可以使用四种格式，分别是：立即数、寄存器、直接内存访问和间接内存访问。

（1）立即数以$开头，比如$40。下面这行代码是把40这个数字拷贝到%eax寄存器：

movl $40, %eax
（2）在指令中最常见到的就是对寄存器的访问，GNU的汇编器规定寄存器一定要以%开头。

（3）直接内存访问。当在代码中看到操作数是一个数字时，它其实指的是内存地址，因为数字立即数必须以$开头。另外汇编代码里的标签，也会被翻译成直接内存访问的地址，比如“callq _printf”中的“_printf”是一个函数入口的地址。汇编器会计算出程序装载在内存时，每个字面量和过程的地址。

（4）间接内存访问。带有括号，比如（%rbp）是指%rbp寄存器指向的值所在的地址，即栈基指针指向的栈底中的值所在地址。间接内存访问的完整形式是：“偏移量（基址，索引值，字节数）”这样的格式，其地址是：基址+索引值*字节数+偏移量，例如：8(%rbp)，是比%rbp寄存器的值加8；-8(%rbp)，是比%rbp寄存器的值减8；（%rbp, %eax, 4）的值，等于%rbp + %eax*4，这个地址格式相当于访问C语言的数组中的元素，数组元素是32位的整数，其索引值是%eax，而数组的起始位置是%rbp，其中字节数只能取1,2,4,8四个值。

对指令的格式有所了解后，接下来再看几个常用的指令：

（1）mov指令。格式为“mov 寄存器|内存|立即数, 寄存器|内存”。这个指令最常用到，用于在寄存器或内存之间传递数据，或者把立即数加载到内存或寄存器。mov指令的第一个参数是源，可以是寄存器、内存或立即数。第二个参数是目的地，可以是寄存器或内存。

（2）lea指令（load effective address）。装载有效地址，格式为：“lea 源，目的”。比如前面例子代码中的leaq指令，是把字符串的地址加载到%rdi寄存器，如下所示：

leaq L_.str(%rip), %rdi
（3）add指令是做加法运算，比如典型的c=a+b这样一个算术运算可能是这样的：

movl -4(%rbp), %eax #把%rbp-4的值拷贝到%eax
addl -8(%rbp), %eax #把%rbp-8地址的值加到%eax上
movl %eax, -12(%rbp) #把%eax的值写到内存地址%rbp-12
这三行代码，分别是操作a、b、c三个变量的地址。它们的地址分别比%rbp的值减4、减8、减12，因此a、b、c三个变量每个都是4个字节长也就是32位，它们是紧挨着存放的，并且是从高地址向低地址延伸的，这是栈的特征。除了add以外，其他算术运算的指令如下所示：

与栈有关的操作如下所示：

过程调用操作如下所示：

10. 在汇编代码中，经常要使用各种以%开头的寄存器的符号。x86-64架构的CPU里有很多寄存器，在代码里最常用的是16个64位的通用寄存器，分别是：

%rax，%rbx，%rcx，%rdx，%rsi，%rdi，%rbp，%rsp，
%r8，%r9，%r10，%r11，%r12，%r13，%r14，%r15。
这些寄存器在历史上有各自的用途，比如rax中的“a”是Accumulator(累加器)的意思，这个寄存器是累加寄存器。但随着技术的发展，这些寄存器基本上都成为了通用的寄存器，不限于某种特定的用途。但是为了方便软件的编写，这里还是做了一些约定，给这些寄存器划分了用途。针对x86-64架构有多个调用约定（Calling Convention），包括微软的x64调用约定（Windows）、System V AMD64 ABI（Unix和Linux）等，下面的内容属于后者：

（1）%rax除了其他用途外，通常在函数返回时，把返回值放在这里。

（2）%rsp作为栈指针寄存器，指向栈顶。

（3）%rdi，%rsi，%rdx，%rcx，%r8，%r9给函数传整型参数，依次对应第1参数到第6参数。超过6个参数就放在栈桢里。

（4）如果程序要使用%rbx，%rbp，%r12，%r13，%r14，%r15这几个寄存器，是由被调用者（Callee）负责保护的，也就是写到栈里，在返回的时候要恢复这些寄存器中原来的内容。其他寄存器的内容则是由调用者（Caller）负责保护，如果不想这些寄存器中的内容被破坏，那么要自己保护起来。

上面这些寄存器的名字都是64位的名字，对于每个寄存器还可以只使用它的一部分，并且另起一个名字。比如对于%rax如果使用它的前32位，就叫做%eax，前16位叫%ax，前8位（0到7位）叫%al，8到15位叫%ah，如下图所示：

其他的寄存器也有这样的使用方式，当在汇编代码中看到如下名称时，就知道其实它们有可能在物理上是同一个寄存器：

除了通用寄存器以外，有可能的话还要了解下面的寄存器和用途，写汇编代码时也经常跟它们发生关联：

（1）8个80位的x87寄存器，用于做浮点计算；

（2）8个64位的MMX寄存器，用于MMX指令（即多媒体指令），这8个跟x87寄存器在物理上是相同的寄存器。在传递浮点数参数时要用mmx寄存器。

（3）16个128位的SSE寄存器，用于SSE指令，它涉及到SIMD的概念。

（4）指令寄存器rip，保存指令地址。CPU总是根据这个寄存器来读取指令。

（5）flags（64位：rflags，32位：eflags）寄存器：每个位用来标识一个状态。比如它们会用于比较和跳转的指令，例如if语句翻译成的汇编代码，就会用它们来保存if条件的计算结果。

因此，汇编代码处处要跟寄存器打交道，正确和高效使用寄存器，是编译器后端的重要任务之一。

11. 编译器后端可以基于AST把之前自定义的playscript翻译成正确的汇编代码，并将汇编代码编译成可执行程序。先来看看如何从playscript生成汇编代码，例如支持函数调用和传参、整数的加法运算（要充分利用寄存器提高性能）、变量声明和初始化。具体来说，要能够把下面的示例程序正确生成汇编代码：

//asm.play
int fun1(int x1, int x2, int x3, int x4, int x5, int x6, int x7, int x8){
int c = 10;
return x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + c;
}

println("fun1:" + fun1(1,2,3,4,5,6,7,8));
功能等价于这段playscript代码的手写汇编代码如下，涉及到如何在多于6个参数的情况下传参，和栈帧的变化过程：

# function-call2-craft.s 函数调用和参数传递
# 文本段,纯代码
.section __TEXT,__text,regular,pure_instructions

_fun1:
# 函数调用的序曲,设置栈指针
pushq %rbp # 把调用者的栈帧底部地址保存起来
movq %rsp, %rbp # 把调用者的栈帧顶部地址,设置为本栈帧的底部

movl $10, -4(%rbp) # 变量c赋值为10,也可以写成 movl $10, (%rsp)

# 做加法
movl %edi, %eax # 第一个参数放进%eax
addl %esi, %eax # 加参数2
addl %edx, %eax # 加参数3
addl %ecx, %eax # 加参数4
addl %r8d, %eax # 加参数5
addl %r9d, %eax # 加参数6
addl 16(%rbp), %eax # 加参数7
addl 24(%rbp), %eax # 加参数8

addl -4(%rbp), %eax # 加上c的值

# 函数调用的尾声,恢复栈指针为原来的值
popq %rbp # 恢复调用者栈帧的底部数值
retq # 返回

.globl _main # .global伪指令让_main函数外部可见
_main: ## @main

# 函数调用的序曲,设置栈指针
pushq %rbp # 把调用者的栈帧底部地址保存起来
movq %rsp, %rbp # 把调用者的栈帧顶部地址,设置为本栈帧的底部

subq $16, %rsp # 这里是为了让栈帧16字节对齐，实际使用可以更少

# 设置参数
movl $1, %edi # 参数1
movl $2, %esi # 参数2
movl $3, %edx # 参数3
movl $4, %ecx # 参数4
movl $5, %r8d # 参数5
movl $6, %r9d # 参数6
movl $7, (%rsp) # 参数7
movl $8, 8(%rsp) # 参数8

callq _fun1 # 调用函数

# 为printf设置参数
leaq L_.str(%rip), %rdi # 第一个参数是字符串的地址
movl %eax, %esi # 第二个参数是前一个参数的返回值

callq _printf # 调用函数

# 设置返回值。这句也常用 xorl %esi, %esi 这样的指令,都是置为零
movl $0, %eax

addq $16, %rsp # 缩小栈

# 函数调用的尾声,恢复栈指针为原来的值
popq %rbp # 恢复调用者栈帧的底部数值
retq # 返回

# 文本段,保存字符串字面量
.section __TEXT,__cstring,cstring_literals
L_.str: ## @.str
.asciz "fun1 :%d \n"
12. 接下来动手写程序，从AST翻译成汇编代码，如AsmGen.java中实现加法运算的翻译过程如下：

case PlayScriptParser.ADD:
//为加法运算申请一个临时的存储位置，可以是寄存器和栈
address = allocForExpression(ctx);
bodyAsm.append("\tmovl\t").append(left).append(", ").append(address).append("\n"); //把左边节点拷贝到存储空间
bodyAsm.append("\taddl\t").append(right).append(", ").append(address).append("\n"); //把右边节点加上去
break;
这段代码的含义是：通过allocForExpression()方法，为每次加法运算申请一个临时空间（可以是寄存器，或栈里的一个地址），用来存放加法操作的结果。接着用mov指令把加号左边的值拷贝到这个临时空间，再用add指令加上右边的值。生成汇编代码的过程，基本上就是基于AST拼接字符串，其中bodyAsm变量是一个StringBuffer对象，可以用StringBuffer的toString()方法获得最后的汇编代码。按照上面的逻辑，针对“x1 + x2 + x3 + x4 + x5 + x6 + x7 + x8 + c”这个表达式，形成的汇编代码如下：

# 过程体
movl $10, -4(%rbp)
movl %edi, %eax //x1
addl %esi, %eax //+x2
movl %eax, %ebx
addl %edx, %ebx //+x3
movl %ebx, %r10d
addl %ecx, %r10d //+x4
movl %r10d, %r11d
addl %r8d, %r11d //+x5
movl %r11d, %r12d
addl %r9d, %r12d //+x6
movl %r12d, %r13d
addl 16(%rbp), %r13d //+x7
movl %r13d, %r14d
addl 24(%rbp), %r14d //+x8
movl %r14d, %r15d
addl -4(%rbp), %r15d //+c，本地变量
可以看到上面那段Java解析代码的问题，在于每次执行加法运算时都要占用一个新的寄存器。比如x1+x2使用了%eax，再加x3时使用了%ebx，按照这样的速度寄存器很快就用完了，使用效率显然不高。所以必须要做代码优化。如果只是简单机械地翻译代码，相当于产生了大量的临时变量，每个临时变量都占用了空间，如下所示：

t1 := x1 + x2;
t2 := t1 + x3;
t3 := t2 + x4;
...
进行代码优化可以让不再使用的存储位置（t1，t2，t3…）能够复用，从而减少临时变量也减少代码行数，优化后的申请临时存储空间的方法如下：

//复用前序表达式的存储位置
if (ctx.bop != null && ctx.expression().size() >= 2) {
ExpressionContext left = ctx.expression(0);
String leftAddress = tempVars.get(left);
if (leftAddress!= null){
tempVars.put(ctx, leftAddress); //当前节点也跟这个地址关联起来
return leftAddress;
}
}
这段代码的意思是：对于每次加法运算原本都要申请一个寄存器，如果加号左边的节点已经在某个寄存器中，那就直接复用这个寄存器，就不要用新的了。调整以后，生成的汇编代码就跟手写的一样了，而且至始至终只用了%eax一个寄存器，代码数量也减少了一半，优化效果明显，如下所示：

# 过程体
movl $10, -4(%rbp)
movl %edi, %eax
addl %esi, %eax
addl %edx, %eax
addl %ecx, %eax
addl %r8d, %eax
addl %r9d, %eax
addl 16(%rbp), %eax
addl 24(%rbp), %eax
addl -4(%rbp), %eax

# 返回值
# 返回值在之前的计算中,已经存入%eax
对代码如何使用寄存器进行充分优化，是编译器后端一项必须要做的工作。这里只用了很粗糙的方法，不具备实用价值，后面可以看到更好的优化算法。

13. 弄清楚了加法运算的代码翻译逻辑，再看看AsmGen.java中generate()和generateProcedure()方法，看看汇编代码完整的生成逻辑是怎样的。这样可以帮助弄清楚整体脉络和所有的细节，比如函数的标签是怎么生成的，序曲和尾声是怎么加上去的，本地变量的地址是如何计算的，等等，如下所示：

public String generate() {
StringBuffer sb = new StringBuffer();

// 1.代码段的头
sb.append("\t.section __TEXT,__text,regular,pure_instructions\n");

// 2.生成函数的代码
for (Type type : at.types) {
if (type instanceof Function) {
Function function = (Function) type;
FunctionDeclarationContext fdc = (FunctionDeclarationContext) function.ctx;
visitFunctionDeclaration(fdc); // 遍历，代码生成到bodyAsm中了
generateProcedure(function.name, sb);
}
}

// 3.对主程序生成_main函数
visitProg((ProgContext) at.ast);
generateProcedure("main", sb);

// 4.文本字面量
sb.append("\n# 字符串字面量\n");
sb.append("\t.section __TEXT,__cstring,cstring_literals\n");
for(int i = 0; i< stringLiterals.size(); i++){
sb.append("L.str." + i + ":\n");
sb.append("\t.asciz\t\"").append(stringLiterals.get(i)).append("\"\n");
}

// 5.重置全局的一些临时变量
stringLiterals.clear();

return sb.toString();
}
generate()方法是整个翻译程序的入口，它做了几项工作：

（1）生成一个.section伪指令，表明这是一个放文本的代码段。

（2）遍历AST中的所有函数，调用generateProcedure()方法为每个函数生成一段汇编代码。

（3）再接着生成一个主程序的入口。

（4）在一个新的section中，声明一些全局的常量（字面量）。

上面整个程序的结构跟最后生成的汇编代码的结构是一致的。generateProcedure()方法把函数转换成汇编代码，如下所示：

private void generateProcedure(String name, StringBuffer sb) {
// 1.函数标签
sb.append("\n## 过程:").append(name).append("\n");
sb.append("\t.globl _").append(name).append("\n");
sb.append("_").append(name).append(":\n");

// 2.序曲
sb.append("\n\t# 序曲\n");
sb.append("\tpushq\t%rbp\n");
sb.append("\tmovq\t%rsp, %rbp\n");

// 3.设置栈顶
// 16字节对齐
if ((rspOffset % 16) != 0) {
rspOffset = (rspOffset / 16 + 1) * 16;
}
sb.append("\n\t# 设置栈顶\n");
sb.append("\tsubq\t$").append(rspOffset).append(", %rsp\n");

// 4.保存用到的寄存器的值
saveRegisters();

// 5.函数体
sb.append("\n\t# 过程体\n");
sb.append(bodyAsm);

// 6.恢复受保护的寄存器的值
restoreRegisters();

// 7.恢复栈顶
sb.append("\n\t# 恢复栈顶\n");
sb.append("\taddq\t$").append(rspOffset).append(", %rsp\n");

// 8.如果是main函数，设置返回值为0
if (name.equals("main")) {
sb.append("\n\t# 返回值\n");
sb.append("\txorl\t%eax, %eax\n");
}

// 9.尾声
sb.append("\n\t# 尾声\n");
sb.append("\tpopq\t%rbp\n");
sb.append("\tretq\n");

// 10.重置临时变量
rspOffset = 0;
localVars.clear();
tempVars.clear();
bodyAsm = new StringBuffer();
}
它的工作包括：

（1）生成函数标签、序曲部分的代码、设置栈顶指针、保护寄存器原有的值等。

（2）接着是函数体，比如本地变量初始化、做加法运算等。

（3）最后是一系列收尾工作，包括恢复被保护的寄存器的值、恢复栈顶指针，以及尾声部分的代码。

最后可以通过-S参数运行playscript.java，将asm.play文件生成汇编代码文件asm.s，再生成和运行可执行文件：

java play.PlayScript -S asm.play -o asm.s //生成汇编代码
gcc asm.s -o asm //生成可执行文件
./asm //运行可执行文件
14. 到目前为止，已经成功地编译playscript程序，并生成了可执行文件。为了加深对生成可执行文件的理解，再用 playscript生成目标文件，让C语言来调用。这样可以证明playscript生成汇编代码的逻辑是靠谱的，以至于可以用playscript代替C语言来写一个共用模块。

在编程时，经常调用一些公共的库实现一些功能，这些库可能是别的语言写的，但仍然可以调用。这里也可以实现playscript与其他语言的功能共享，在示例程序中实现很简单，微调一下生成的汇编代码，使用“.global _fun1”伪指令让_fun1过程变成全局的，这样其他语言写的程序就可以调用这个_fun1过程，实现功能的重用，如下所示：

# convention-fun1.s 测试调用约定，_fun1将在外部被调用
# 文本段,纯代码
.section __TEXT,__text,regular,pure_instructions

.globl _fun1 # .global伪指令让_fun1函数外部可见
_fun1:
# 函数调用的序曲,设置栈指针
pushq %rbp # 把调用者的栈帧底部地址保存起来
movq %rsp, %rbp # 把调用者的栈帧顶部地址,设置为本栈帧的底部

movl $10, -4(%rbp) # 变量c赋值为10,也可以写成 movl $10, (%rsp)

# 做加法
movl %edi, %eax # 第一个参数放进%eax
addl %esi, %eax # 加参数2
addl %edx, %eax # 加参数3
addl %ecx, %eax # 加参数4
addl %r8d, %eax # 加参数5
addl %r9d, %eax # 加参数6
addl 16(%rbp), %eax # 加参数7
addl 24(%rbp), %eax # 加参数8

addl -4(%rbp), %eax # 加上c的值

# 函数调用的尾声,恢复栈指针为原来的值
popq %rbp # 恢复调用者栈帧的底部数值
retq # 返回
接下来再写一个C语言的函数来调用fun1()，其中的extern关键字说明有一个fun1()函数是在另一个模块里实现的：

/**
* convention-main.c 测试调用约定。调用一个外部函数fun1
*/
#include <stdio.h>

//声明一个外部函数，在链接时会在其他模块中找到
extern int fun1(int x1, int x2, int x3, int x4, int x5, int x6, int x7, int x8);

int main(int argc, char *argv[])
{
printf("fun1: %d \n", fun1(1,2,3,4,5,6,7,8));
return 0;
}
然后在命令行敲下面两个命令：

# 编译汇编程序
as convention-fun1.s -o convention-fun1.o

# 编译C程序
gcc convention-main.c convention-fun1.o -o convention
（1）第一个命令，把playscript 生成的汇编代码编译成一个二进制目标文件。

（2）第二个命令在编译C程序时，同时也带上这个二进制文件，那么编译器就会找到 un1()函数的定义，并链接到一起。最后生成的可执行文件能够顺利运行。

这里面需要解释一下链接过程，其实高级语言和汇编语言都容易阅读。而二进制文件则是对计算机友好的，便于运行。汇编器可以把每一个汇编文件都编译生成一个二进制的目标文件，或者叫做一个模块，而链接器则把这些模块组装成一个整体。但在C语言生成的那个模块中，调用fun1()函数时它没有办法知道fun1()函数的准确地址，因为这个地址必须是整个文件都组装完毕以后才能计算出来。所以汇编器把这个任务推迟，交给链接器去解决，如下图所示：

编译一个程序，最后的结果是生成可运行的二进制文件。其实生成汇编代码以后，就可以认为编译器的任务完成了，后面的工作其实是由汇编器和链接器完成的。但也可以把整个过程都看做编译过程，了解二进制文件的结构，也为完整地了解整个编译过程划上了句号。当然对二进制文件格式的理解，也是做大型项目编译管理、二进制代码分析等工作的基础。

对于每个操作系统，对于可执行程序的格式要求是不一样的。比如在Linux下，目标文件、共享对象文件、二进制文件都是采用ELF格式。实际上，这些二进制文件的格式跟加载到内存中的程序格式是很相似的，这样可以迅速被操作系统读取，并加载到内存中去，加载速度越快，也就相当于程序的启动速度越快。同内存中的布局一样，在ELF格式中，代码和数据也是分开的。这样做的好处是，程序的代码部分可以在多个进程中共享，不需要在内存里放多份，放一份然后映射到每个进程的代码区就行了。而数据部分则是每个进程都不一样的，所以要为每个进程加载一份。

四、中间代码：兼容不同语言与硬件
15. IR的作用是能基于它对接不同语言的前端，也能对接不同的硬件架构，还能做很多的优化。首先来看看IR的特征。IR的意思是中间表达方式，它在高级语言和汇编语言的中间，这意味着它的特征也是处于二者之间的。与高级语言相比，IR丢弃了大部分高级语言的语法特征和语义特征，比如循环语句、if语句、作用域、面向对象等等，它更像高层次的汇编语言；而相比真正的汇编语言，它又不会有那么多琐碎、与具体硬件相关的细节。

IR有很多种类（AST也是一种IR），每种IR都有不同的特点和用途，有的编译器甚至要用到几种不同的IR。这里后端部分所讲的IR，目的是方便执行各种优化算法，并有利于生成汇编，这种IR可以看做是一种高层次的汇编语言，主要体现在：

（1）它可以使用寄存器，但寄存器的数量没有限制；

（2）控制结构也跟汇编语言比较像，比如有跳转语句，分成多个程序块，用标签来标识程序块等；

（3）使用相当于汇编指令的操作码。这些操作码可以一对一地翻译成汇编代码，但有时一个操作码会对应多个汇编指令。

下面来看看一个典型IR：三地址代码（Three Address Code, TAC）。它的优点是很简洁，所以适合用来讨论算法，如下所示：

x := y op z //二元操作
x := op y //一元操作
每条三地址代码最多有三个地址，其中两个是源地址（如第一行代码的y和z），一个是目的地址（也就是x），每条代码最多有一个操作（op），例如下面的算术运算代码：

int a, b, c, d;
a = b + c * d;
写成TAC格式如下所示：

t1 := c * d
a := b + t1
t1是新产生的临时变量。当源代码的表达式中包含一个以上的操作符时，就需要引入临时变量，并把原来的一条代码拆成多条代码。再比如下面的条件语句代码，如下所示：

int a, b c;
if (a < b )
c = b;
else
c = a;
c = c * 2;
转换成TAC如下所示：

t1 := a < b;
IfZ t1 Goto L1;
c := a;
Goto L2;
L1:
c := b;
L2:
c := c * 2;
IfZ是检查后面的操作数是否是0，“Z”就是“Zero”的意思。这里使用了标签和Goto语句来进行指令的跳转（Goto 相当于x86-64的汇编指令jmp）。循环语句的例子如下所示：

int a, b;
while (a < b){
a = a + 1;
}
a = a + b;
转换成TAC的循环语句如下所示：

L1:
t1 := a < b;
IfZ t1 Goto L2;
a := a + 1;
Goto L1;
L2:
a := a + b;
所以三地址代码的规则相当简单，可以通过比较简单的转换规则，就能从AST生成TAC。这里三地址代码主要用来描述优化算法，因为它比较简洁易读，操作（指令）的类型很少，书写方式也符合日常习惯。不过这里并不用它来生成汇编代码，是因为它含有的细节信息还是比较少，比如整数是16、32还是64位的？目标机器的架构和操作系统是什么？生成二进制文件的布局是怎样的等等。

这里会用LLVM的IR来承担生成汇编的任务，因为它有能力描述与目标机器（CPU、操作系统）相关的更加具体的信息，准确地生成目标代码，从而真正能够用于生产环境。在正式开始LLVM的介绍前，再讲讲另外几种IR的格式：

（1）四元式。它是与三地址代码等价的另一种表达方式，格式是：（OP，arg1，arg2，result）所以，“a := b + c”就等价于（+，b，c，a）。

（2）逆波兰表达式。它把操作符放到后面，所以也叫做后缀表达式。“b + c”对应的逆波兰表达式是“b c +”；而“a = b + c”对应的逆波兰表达式是“a b c + =”。逆波兰表达式特别适合用栈来做计算。比如计算“b c +”，先从栈里弹出加号，知道要做加法操作，然后从栈里弹出两个操作数，执行加法运算即可。这个计算过程跟深度优先的遍历AST是等价的。所以采用逆波兰表达式，有可能用一个很简单的方式就能实现公式计算功能，如果编写带有公式功能的软件时可以考虑使用它。而且从AST生成逆波兰表达式也非常容易。

16. 三地址代码主要是学习算法的工具，或者用于实现比较简单的后端，要实现工业级的后端，充分发挥硬件的性能，还要学习LLVM的IR。LLVM汇编码（LLVM Assembly）是LLVM的IR。有时就简单地称呼它为LLVM语言，因此可以把用LLVM汇编码书写的一个程序文件叫做LLVM程序。后面会详细提到LLVM，这里只是先了解它的核心即IR。

首先，LLVM汇编码是采用静态单赋值代码形式的。在三地址代码上再加一些限制，就能得到另一种重要的代码，即静态单赋值代码（Static Single Assignment，SSA），在静态单赋值代码中一个变量只能被赋值一次，例如“y = x1 + x2 + x3 + x4”的普通三地址代码如下：

y := x1 + x2;
y := y + x3;
y := y + x4;
其中y被赋值了三次，如果写成SSA的形式，就只能写成下面的样子：

t1 := x1 + x2;
t2 := t1 + x3;
y := t2 + x4;
为什么要费力写成这种形式，还要为此多添加t1和t2临时变量？原因是SSA的形式体现了精确的“使用 - 定义”关系。每个变量很确定地只会被定义一次，然后可以多次使用，这种特点使得基于SSA更容易做数据流分析，而数据流分析又是很多代码优化技术的基础，所以几乎所有语言的编译器、解释器或虚拟机中都使用了SSA，因为有利于做代码优化。而LLVM的IR也采用SSA的形式，也是因为SSA方便做代码优化。

其次，LLVM IR比三地址代码有更多的细节信息。比如整型变量的字长、内存对齐方式等等，所以使用LLVM IR能够更准确地翻译成汇编码。例如下面这段C语言代码：

int fun1(int a, int b){
int c = 10;
return a + b + c;
}
对应的LLLM汇编码如下：

; ModuleID = 'fun1.c'
source_filename = "fun1.c"
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.14.0"
; Function Attrs: noinline nounwind optnone ssp uwtable
define i32 @fun1(i32, i32) #0 {
%3 = alloca i32, align 4 //为3个变量申请空间
%4 = alloca i32, align 4
%5 = alloca i32, align 4
store i32 %0, i32* %3, align 4 //参数1赋值给变量1
store i32 %1, i32* %4, align 4 //参数2赋值给变量2
store i32 10, i32* %5, align 4 //常量10赋值给变量3
%6 = load i32, i32* %3, align 4 //
%7 = load i32, i32* %4, align 4
%8 = add nsw i32 %6, %7
%9 = load i32, i32* %5, align 4
%10 = add nsw i32 %8, %9
ret i32 %10
}
attributes #0 = { noinline nounwind optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "less-precise-fpmad"="false" "no-frame-pointer-elim"="true" "no-frame-pointer-elim-non-leaf" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }

!llvm.module.flags = !{!0, !1, !2}
!llvm.ident = !{!3}

!0 = !{i32 2, !"SDK Version", [2 x i32] [i32 10, i32 14]}
!1 = !{i32 1, !"wchar_size", i32 4}
!2 = !{i32 7, !"PIC Level", i32 2}
!3 = !{!"Apple LLVM version 10.0.1 (clang-1001.0.46.4)"}
这些代码看上去确实比三地址代码复杂，但还是比汇编精简多了，比如LLVM IR的指令数量连x86-64汇编的十分之一都不到。来熟悉一下里面的元素：

（1）模块。LLVM程序是由模块构成的，这个文件就是一个模块。模块里可以包括函数、全局变量和符号表中的条目。链接时会把各个模块拼接到一起，形成可执行文件或库文件。在模块中，可以定义目标数据布局（target data layout），例如上面汇编代码开头的小写“e”是低字节序（Little Endian）的意思，对于超过一个字节的数据来说，低位字节排在内存的低地址端，高位字节排放在内存的高地址端：

target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
上面汇编的第二行“target triple”用来定义模块的目标主机，它包括架构、厂商、操作系统三个部分。

（2）函数。在上面汇编中有一个以define开头的函数的声明，还带着花括号，这有点像C语言的写法，比汇编用标签来表示一个函数的可读性更好。函数声明时可以带很多修饰成分，比如链接类型、调用约定等。如果不写，缺省的链接类型是external的，也就是可以暴露出来被其他模块链接。调用约定也有很多种选择，缺省是“ccc”，也就是C语言的调用约定（C Calling Convention），而“swiftcc”则是 swift 语言的调用约定。这些信息都是生成汇编时所需要的。上面汇编中函数fun1还带有“#0”的属性值，里面定义了许多属性，这些也是生成汇编时所需要的。

（3）标识符。分为全局（Glocal）和本地的（Local）：全局标识符以@开头，包括函数和全局变量，上面汇编中的@fun1就是；本地标识符以%开头。有的标识符是有名字的比如@fun1或%a，有的是没名字的用数字表示就可以，例如%1。

（4）操作码。alloca、store、load、add、ret这些都是操作码。它们的含义如下图所示：

它们跟之前看到的汇编相似，但是似乎函数体中的代码有点长，一个简单的“a+b+c”就翻译成了10多行代码，还用到了那么多临时变量。不过这只是没经过优化的格式，带上优化参数稍加优化以后，就会被精简成下面的样子：

define i32 @fun1(i32, i32) local_unnamed_addr #0 {
%3 = add i32 %0, 10
%4 = add i32 %3, %1
ret i32 %4
}
（5）类型系统。汇编是无类型的。如果用add指令它就认为操作的是整数。而用fadd（或addss）指令，就认为操作的是浮点数。这样会有类型不安全的风险，如果把整型当浮点数用了，造成的后果是计算结果完全错误。LLVM汇编则带有一个类型系统。它能避免不安全的数据操作，并且有助于优化算法。这个类型系统包括基础数据类型、函数类型和void类型。如下图所示：

函数类型是包括对返回值和参数的定义，比如i32 (i32)；void类型不代表任何值，也没有长度。

（6）全局变量和常量。在LLVM汇编中可以声明全局变量。全局变量所定义的内存是在编译时就分配好了的，而不是在运行时，例如下面这句定义了一个全局变量C：

@c = global i32 100, align 4
也可以声明常量，它的值在运行时不会被修改，如下所示：

@c = constant i32 100, align 4
（7）元数据。在上面汇编中还看到以“!”开头的一些句子，这些是元数据，它定义了一些额外的信息，提供给优化器和代码生成器使用。

（8）基本块。函数中的代码会分成一个个的基本块，可以用标签（Label）来标记一个基本块。下面这段代码有4个基本块，其中第一个块有一个缺省的名字“entry”，也就是作为入口的基本块，这个基本块不给它标签也可以：

define i32 @bb(i32) #0 {
%2 = alloca i32, align 4
%3 = alloca i32, align 4
store i32 %0, i32* %3, align 4
%4 = load i32, i32* %3, align 4
%5 = icmp sgt i32 %4, 0
br i1 %5, label %6, label %9

; <label>:6: ; preds = %1
%7 = load i32, i32* %3, align 4
%8 = mul nsw i32 %7, 2
store i32 %8, i32* %2, align 4
br label %12

; <label>:9: ; preds = %1
%10 = load i32, i32* %3, align 4
%11 = add nsw i32 %10, 3
store i32 %11, i32* %2, align 4
br label %12

; <label>:12: ; preds = %9, %6
%13 = load i32, i32* %2, align 4
ret i32 %13
}
这段代码实际上相当于下面这段C语言的代码：

int bb(int b){
if (b > 0)
return b * 2;
else
return b + 3;
}
每个基本块是一系列的指令，分析一下标签为9的基本块，从而熟悉一下基本块和LLVM指令的特点：

（1）第一行（%10 = load i32, i32* %3, align 4）的含义是：把3号变量（32位整型）从内存加载到寄存器，叫做10号变量，其中内存对齐是4字节。这里延伸一下，在内存里存放数据时，有时会从2、4、8个字节的整数倍地址开始存。有些汇编指令要求必须从这样对齐的地址来取数据。另一些指令没做要求，但如果是不对齐的，比如从0x03地址取数据，就要花费更多的时钟周期。但内存对齐的缺点是会浪费内存空间。第一行是整个基本块的唯一入口，从其他基本块跳转过来时，只能跳转到这个入口行，不能跳转到基本块中的其他行。

（2）第二行（%11 = add nsw i32 %10, 3）的含义是：把10号变量（32位整型）加上3，保存到11号变量，其中nsw是加法计算时没有符号环绕（No Signed Wrap）的意思。

（3）第三行（store i32 %11, i32* %2, align 4）的含义是：把11号变量（32位整型）存入内存中的2号变量，内存对齐4字节。

（4）第四行（br label %12）的含义是：跳转到标签为12的代码块。其中br指令是一条终结指令。终结指令要么是跳转到另一个基本块，要么是从函数中返回（ret指令），基本块的最后一行必须是一条终结指令。

最后要强调，从其他基本块不可以跳转到入口基本块，即函数中的第一个基本块。这个规定也是有利于做数据优化。

五、后端技术重用：LLVM
17. 在编译器后端，做代码优化和为每个目标平台生成汇编代码，工作量是很大的，需要利用现成的工具。在前端部分，可以使用Antlr生成词法分析器和语法分析器。在后端部分，也可以利用LLVM和GCC这两个后端框架。LLVM是一个开源编译器基础设施项目，主要聚焦于编译器的后端功能（代码生成、代码优化、JIT等）。在AI领域的TensorFlow框架，在后端也是用LLVM来编译，它把机器学习的IR翻译成LLVM的IR，然后再翻译成支持CPU、GPU和TPU的程序。

与LLVM起到类似作用的后端编译框架是GCC（GNU Compiler Collection，GNU编译器套件）。它支持了GNU Linux上的很多语言，例如C、C++、Objective-C、Fortran、Go和Java语言等。其实，它最初只是一个C语言的编译器，后来把公共的后端功能也提炼出来形成了框架，支持多种前端语言和后端平台。

接下来先来看看LLVM的构成和特点，LLVM能够支持多种语言的前端、多种后端CPU架构。在LLVM内部，使用类型化的和SSA特点的IR进行各种分析、优化和转换，如下图所示：

LLVM项目包含很多组成部分：

（1）LLVM核心（core）。就是上图中的优化和分析工具，还包括了为各种CPU生成目标代码的功能；这些库采用的是LLVM IR，一个良好定义的中间语言，前面部分已经初步了解它了。

（2）Clang前端（是基于 LLVM 的 C、C++、Objective-C 编译器）。

（3）LLDB（一个调试工具）。

（4）LLVM版本的C++标准类库，和其他子项目。

LLVM有良好的模块化设计和接口。以前的编译器后端技术很难复用，而LLVM具备定义了良好接口的库，方便使用者选择在什么时候，复用哪些后端功能。比如针对代码优化，LLVM提供了很多算法，语言的设计者可以自己选择合适的算法，或者实现自己特殊的算法，具有很好的灵活性。LLVM同时支持JIT（即时编译）和AOT（提前编译）两种模式。过去的语言要么是解释型的，要么编译后运行。习惯了使用解释型语言的程序员，很难习惯必须等待一段编译时间才能看到运行效果，习惯在一个REPL界面中一边写脚本，一边实时看到反馈。LLVM既可以通过JIT技术支持解释执行，又可以完全编译后才执行，这对于语言的设计者很有吸引力。

而且，LLVM在设计上支持全过程的优化，包括编译时、链接时、装载时，甚至是运行时。以运行时优化为例，基于LLVM能够在运行时，收集一些性能相关的数据对代码编译优化，可以是实时优化的、动态修改内存中的机器码；也可以收集这些性能数据，然后做离线的优化，重新生成可执行文件，然后再加载执行，在现代计算环境下，每种功能的计算特点都不相同，确实需要针对不同的场景做不同的优化。下图展现了这个过程：

18. 可以使用LLVM自带的命令行工具，分几步体验一下LLVM的功能：

（1）从C语言代码生成IR；

（2）优化IR；

（3）从文本格式的IR生成二进制的字节码；

（4）把IR编译成汇编代码和可执行文件。

从C语言代码生成IR代码比较简单，之前已经用到过一个C语言的示例代码，如下所示：

//fun1.c
int fun1(int a, int b){
int c = 10;
return a+b+c;
}
用前端工具Clang就可以把它编译成IR代码，命令如下：

clang -emit-llvm -S fun1.c -o fun1.ll
其中，-emit-llvm参数告诉Clang生成LLVM的汇编码，也就是IR代码（如果不带这个参数，就会生成针对目标机器的汇编码），生成的LLVM IR如下：

; ModuleID = 'function-call1.c'
source_filename = "function-call1.c"
target datalayout = "e-m:o-i64:64-f80:128-n8:16:32:64-S128"
target triple = "x86_64-apple-macosx10.14.0"

; Function Attrs: noinline nounwind optnone ssp uwtable
define i32 @fun1(i32, i32) #0 {
%3 = alloca i32, align 4
%4 = alloca i32, align 4
%5 = alloca i32, align 4
store i32 %0, i32* %3, align 4
store i32 %1, i32* %4, align 4
store i32 10, i32* %5, align 4
%6 = load i32, i32* %3, align 4
%7 = load i32, i32* %4, align 4
%8 = add nsw i32 %6, %7
%9 = load i32, i32* %5, align 4
%10 = add nsw i32 %8, %9
ret i32 %10
}

attributes #0 = { noinline nounwind optnone ssp uwtable "correctly-rounded-divide-sqrt-fp-math"="false" "disable-tail-calls"="false" "less-precise-fpmad"="false" "min-legal-vector-width"="0" "no-frame-pointer-elim"="true" "no-frame-pointer-elim-non-leaf" "no-infs-fp-math"="false" "no-jump-tables"="false" "no-nans-fp-math"="false" "no-signed-zeros-fp-math"="false" "no-trapping-math"="false" "stack-protector-buffer-size"="8" "target-cpu"="penryn" "target-features"="+cx16,+fxsr,+mmx,+sahf,+sse,+sse2,+sse3,+sse4.1,+ssse3,+x87" "unsafe-fp-math"="false" "use-soft-float"="false" }

!llvm.module.flags = !{!0, !1}
!llvm.ident = !{!2}

!0 = !{i32 1, !"wchar_size", i32 4}
!1 = !{i32 7, !"PIC Level", i32 2}
!2 = !{!"clang version 8.0.0 (tags/RELEASE_800/final)"}
前面提到过可以对生成的IR做优化，让代码更短，只要在上面的命令中加上-O2参数就可以了（这时完成了上面功能步骤的第二步）：

clang -emit-llvm -S -O2 fun1.c -o fun1.ll
这个时候函数体的核心代码就变短了很多。这里面最重要的优化动作，是从原来使用内存（alloca指令是在栈中分配空间，store指令是往内存里写入值），优化到只使用寄存器（%0、%1是参数，%3、%4也是寄存器），如下所示：

define i32 @fun1(i32, i32) #0 {
%3 = add nsw i32 %0, %1
%4 = add nsw i32 %3, 10
ret i32 %4
}
还可以用opt命令来完成上面的优化，具体在后面讲优化算法的部分再细化。另外，LLVM的IR有两种格式，在示例代码中显示的是它的文本格式，文件名一般以.ll结尾；第二种格式是字节码（bitcode）格式，文件名以.bc结尾。为什么要用两种格式呢？因为文本格式的文件便于程序员阅读，而字节码格式的是二进制文件，便于机器处理，比如即时编译和执行。生成字节码格式之后，所占空间会小很多，所以可以快速加载进内存，并转换为内存中的对象格式。而如果加载文本文件，则还需要一个解析的过程，才能变成内存中的格式，效率比较慢。调用llvm-as命令，可以把文本格式转换成字节码格式：

llvm-as fun1.ll -o fun1.bc
也可以用clang直接生成字节码，这时不需要带-S参数而是要用-c参数，如下所示：

clang -emit-llvm -c fun1.c -o fun1.bc
因为.bc文件是二进制文件，不能直接用文本编辑器查看，而要用hexdump命令查看（这时完成了上面功能步骤的第三步）：

hexdump -C fun1.bc

LLVM的一个优点，就是可以即时编译运行字节码，不一定非要编译生成汇编码和可执行文件才能运行（这一点有点像Java语言），这也让LLVM具有极高的灵活性，比如可以在运行时根据收集的性能信息，改变优化策略，生成更高效的机器码。再进一步，可以把字节码编译成目标平台的汇编代码，使用的是llc命令，如下所示：

llc fun1.bc -o fun1.s
用clang命令也能从字节码生成汇编代码，要注意带上-S参数就行了，如下所示：

clang -S fun1.bc -o fun1.s
到了这一步已经得到了汇编代码，接着就可以进一步生成目标文件和可执行文件了。实际上，使用LLVM从源代码到生成可执行文件有两条可能的路径：

（1）第一条路径，是把每个源文件分别编译成字节码文件，然后再编译成目标文件，最后链接成可执行文件。

（2）第二条路径，是先把编译好的字节码文件链接在一起，形成一个更大的字节码文件，然后对这个字节码文件进行进一步的优化，之后再生成目标文件和可执行文件。

第二条路径比第一条路径多了一个优化的步骤，第一条路径只对每个模块做了优化，没有做整体的优化。所以，如有可能尽量采用第二条路径，这样能够生成更加优化的代码。现在完成了上面功能步骤的第四步，总结一下，用到的命令行工具包括：clang前端、llvm-as、llc，其他命令还有opt（代码优化）、llvm-dis（将字节码再反编译回ll文件）、llvm-link（链接）等。

六、生成IR：实现静态编译语言
19. 上面已经初步了解了LLVM和它的IR，也能够使用它的命令行工具。不过还是要通过写程序来生成LLVM的 IR，这样才能复用LLVM的功能，从而实现一门完整的语言。不过，如果要像前面生成汇编语言那样，通过字符串拼接来生成LLVM的IR，除了要了解LLVM IR的很多细节之外，代码一定比较啰嗦和复杂，因为字符串拼接不是结构化的方法，所以最好用一个定义良好的数据结构来表示IR。

好在LLVM项目已经考虑到了这一点，它提供了代表LLVM IR的一组对象模型，只要生成这些对象就相当于生成了IR，这个难度就低多了。而且LLVM还提供了一个工具类IRBuilder，可以利用它进一步提升创建LLVM IR的对象模型的效率。

接下来，就先来了解LLVM IR的对象模型。LLVM在内部有用C++实现的对象模型能够完整表示LLVM IR，当把字节码读入内存时，LLVM就会在内存中构建出这个模型。只有基于这个对象模型才可以做进一步的工作，包括代码优化、实现即时编译和运行、以及静态编译生成目标文件。所以说，这个对象模型是LLVM运行时的核心，如下图所示：

IR对象模型的头文件在include/llvm/IR目录下，其中最重要的类包括：

（1）Module（模块）。Module类聚合了一个模块中的所有数据，它可以包含多个函数。可以通过Model::iterator来遍历模块中所有的函数，它也包含了一个模块的全局变量。

（2）Function（函数）。Function包含了与函数定义（definition）或声明（declaration）有关的所有对象。函数定义包含了函数体，而函数声明则仅仅包含了函数的原型，它是在其他模块中定义的，在本模块中使用。可以通过getArgumentList()方法来获得函数参数的列表，也可以遍历函数体中的所有基本块，这些基本块会形成一个CFG（控制流图），如下所示：

//函数声明，没有函数体。这个函数是在其他模块中定义的，在本模块中使用
declare void @foo(i32)

//函数定义，包含函数体
define i32 @fun3(i32 %a) {
%calltmp1 = call void @foo(i32 %a) //调用外部函数
ret i32 10
}
（3）BasicBlock（基本块）。BasicBlock封装了一系列的LLVM指令，可以借助bigin()/end()模式遍历这些指令，还可以通过getTerminator()方法获得最后一条指令（即终结指令）。还可以用到几个辅助方法在CFG中导航，比如获得某个基本块的前序基本块。

（4）Instruction（指令）。Instruction类代表了LLVM IR的原子操作（即一条指令），可以通过getOpcode()来获得它代表的操作码，它是一个llvm::Instruction枚举值，可以通过op_begin()和op_end()方法对获得这个指令的操作数。

（5）Value（值）。Value类代表一个值。在LLVM的内存IR中，如果一个类是从Value继承的，意味着它定义了一个值，其他方可以去使用。函数、基本块和指令都继承了Value。

（6）LLVMContext（上下文）。这个类代表了LLVM做编译工作时的一个上下文，包含了编译工作中的一些全局数据，比如各个模块用到的常量和类型。

这些内容是LLVM IR对象模型的主要部分，生成IR的过程，就是跟这些类打交道。

20. 接下来，就用程序来生成LLVM的IR。刚刚提到的每个LLVM IR类都可以通过程序来构建。那么为下面这个fun1()函数生成IR，应该怎么办呢：

int fun1(int a, int b){
return a+b;
}
（1）第一步，可以来生成一个LLVM模块，也就是顶层的IR对象。如下所示：

Module *mod = new Module("fun1.ll", TheModule);
（2）第二步，继续在模块中定义函数fun1，因为模块最主要的构成要素就是各个函数。不过在定义函数之前，要先定义函数的原型（或者叫函数的类型）。函数的类型在前端部分讲过：如果两个函数的返回值相同，并且参数也相同，这两个函数的类型是相同的，这样就可以做函数指针或函数型变量的赋值。上面示例代码的函数原型是：返回值是32位整数，参数是两个32位整数。有了函数原型以后，就可以使用这个函数原型定义一个函数。还可以为每个参数设置一个名称，便于后面引用这个参数，如下所示：

//函数原型
vector<Type *> argTypes(2, Type::getInt32Ty(TheContext));
FunctionType *fun1Type = FunctionType::get(Type::getInt32Ty(TheContext), //返回值是整数
argTypes, //两个整型参数
false); //不是变长参数

//函数对象
Function *fun = Function::Create(fun1Type,
Function::ExternalLinkage, //链接类型
"fun2", //函数名称
TheModule.get()); //所在模块

//设置参数名称
string argNames[2] = {"a", "b"};
unsigned i = 0;
for (auto &arg : fun->args()){
arg.setName(argNames[i++]);
}
这里需要注意，代码中是如何使用变量类型的。所有的基础类型都是提前定义好的，可以通过Type类的getXXXTy()方法获得。

（3）第三步，创建一个基本块。这个函数只有一个基本块，可以把它命名为“entry”，也可以不给它命名。在创建了基本块之后，用了一个辅助类IRBuilder设置了一个插入点，后序生成的指令会插入到这个基本块中（IRBuilder是LLVM为了简化IR生成过程所提供的一个辅助类），如下所示：

//创建一个基本块
BasicBlock *BB = BasicBlock::Create(TheContext,//上下文
"", //基本块名称
fun); //所在函数
Builder.SetInsertPoint(BB); //设置指令的插入点
（4）第四步，生成"a+b"表达式所对应的IR，插入到基本块中。a和b都是函数fun的参数，把它取出来分别赋值给L和R（L和R是Value）。然后用IRBuilder的CreateAdd()方法，生成一条add指令。这个指令的计算结果存放在addtemp中，如下所示：

//把参数变量存到NamedValues里面备用
NamedValues.clear();
for (auto &Arg : fun->args())
NamedValues[Arg.getName()] = &Arg;

//做加法
Value *L = NamedValues["a"];
Value *R = NamedValues["b"];
Value *addtmp = Builder.CreateAdd(L, R);
（5）第五步，利用刚才获得的addtmp创建一个返回值，如下所示：

//返回值
Builder.CreateRet(addtmp);
（6）最后一步，检查这个函数的正确性。这相当于是做语义检查，比如，基本块的最后一个语句就必须是一个正确的返回指令：

//验证函数的正确性
verifyFunction(*fun);
上述步骤的代码形成codegen_fun1()方法，可以调用这个方法然后打印输出生成的IR：

Function *fun1 = codegen_fun1(); //在模块中生成Function对象
TheModule->print(errs(), nullptr); //在终端输出IR
生成的IR如下：

; ModuleID = 'llvmdemo'
source_filename = "llvmdemo"
define i32 @fun1(i32 %a, i32 %b) {
%1 = add i32 %a, %b
ret i32 %1
}
21. 为了熟悉更多的API，接下来再生成一个带有if语句的IR，然后看一看函数中包含多个基本块的情况。例如为下面的一个函数生成IR：

int fun_ifstmt(int a)
if (a > 2)
return 2;
else
return 3；
}
这样的一个函数，需要包含4个基本块：入口基本块、Then基本块、Else基本块和Merge基本块。控制流图（CFG）是先分开再合并，像下面这样：

在入口基本块中要计算“a>2”的值，并根据这个值分别跳转到ThenBB和ElseBB。这里用到了IRBuilder的CreateICmpUGE()方法（UGE是”不大于等于“，也就是小于）。这个指令的返回值是一个1位的整型，也就是int1，如下所示：

//计算a>2
Value * L = NamedValues["a"];
Value * R = ConstantInt::get(TheContext, APInt(32, 2, true));
Value * cond = Builder.CreateICmpUGE(L, R, "cmptmp");
接下来创建另外3个基本块，并用IRBuilder的CreateCondBr()方法创建条件跳转指令：当cond是1时跳转到ThenBB，0时跳转到ElseBB，如下所示：

BasicBlock *ThenBB =BasicBlock::Create(TheContext, "then", fun);
BasicBlock *ElseBB = BasicBlock::Create(TheContext, "else");
BasicBlock *MergeBB = BasicBlock::Create(TheContext, "ifcont");
Builder.CreateCondBr(cond, ThenBB, ElseBB);
细心的话可能会发现，在创建ThenBB时指定了其所在函数是fun，而其他两个基本块没有指定。这是因为接下来就要为ThenBB生成指令，所以先加到fun中。之后再顺序添加ElseBB和MergeBB到fun中，如下所示：

//ThenBB
Builder.SetInsertPoint(ThenBB);
Value *ThenV = ConstantInt::get(TheContext, APInt(32, 2, true));
Builder.CreateBr(MergeBB);

//ElseBB
fun->getBasicBlockList().push_back(ElseBB); //把基本块加入到函数中
Builder.SetInsertPoint(ElseBB);
Value *ElseV = ConstantInt::get(TheContext, APInt(32, 3, true));
Builder.CreateBr(MergeBB);
在ThenBB和ElseBB这两个基本块的代码中，分别计算出了两个值：ThenV和ElseV。它们都可能是最后的返回值，但具体采用哪个还要看实际运行时，控制流走的是ThenBB还是ElseBB。这就需要用到phi指令，它完成了根据控制流来选择合适的值的任务，如下所示：

//MergeBB
fun->getBasicBlockList().push_back(MergeBB);
Builder.SetInsertPoint(MergeBB);
//PHI节点：整型，两个候选值
PHINode *PN = Builder.CreatePHI(Type::getInt32Ty(TheContext), 2);
PN->addIncoming(ThenV, ThenBB); //前序基本块是ThenBB时，采用ThenV
PN->addIncoming(ElseV, ElseBB); //前序基本块是ElseBB时，采用ElseV

//返回值
Builder.CreateRet(PN);
从上面这段代码中能看出，在if语句中phi指令是关键。因为当程序的控制流经过多个基本块，每个基本块都可能改变某个值时，通过phi指令可以知道运行时实际走的是哪条路径，从而获得正确的值。最后生成的IR如下，其中的phi指令指出，如果前序基本块是then取值为2，是else时取值为3：

define i32 @fun_ifstmt(i32 %a) {
%cmptmp = icmp uge i32 %a, 2
br i1 %cmptmp, label %then, label %else

then: ; preds = %0
br label %ifcont

else: ; preds = %0
br label %ifcont

ifcont: ; preds = %else, %then
%1 = phi i32 [ 2, %then ], [ 3, %else ]
ret i32 %1
}
循环语句也跟if语句差不多，因为它们都是要涉及到多个基本块，都要用到phi指令。

22. 在写程序时，本地变量是必不可少的一个元素，所以把刚才的示例程序变化一下，用本地变量b保存ThenBB和ElseBB中计算的值，借此学习一下LLVM IR是如何支持本地变量的。改变后的示例程序如下：

int fun_localvar(int a)
int b = 0;
if (a > 2)
b = 2;
else
b = 3;
return b;
}
现在挑战来了，在这段代码中b被声明了一次，赋值了3次。前面知道LLVM IR采用的是SSA形式，也就是每个变量只允许被赋值一次，那么对于多次赋值的情况该如何生成IR呢？其实，LLVM规定了对寄存器只能做单次赋值，而对内存中的变量是可以多次赋值的。对于“int b = 0;”，用下面几条语句生成IR：

//本地变量b
AllocaInst *b = Builder.CreateAlloca(Type::getInt32Ty(TheContext), nullptr, "b");
Value* initValue = ConstantInt::get(TheContext, APInt(32, 0, true));

Builder.CreateStore(initValue, b);
上面这段代码的含义是：首先用CreateAlloca()方法在栈中申请一块内存，用于保存一个32位的整型，接着用CreateStore()方法生成一条store指令，给b赋予初始值。上面几句生成的IR如下：

%b = alloca i32
store i32 0, i32* %b
接着，可以在ThenBB和ElseBB中，分别对内存中的b赋值，如下所示：

//ThenBB
Builder.SetInsertPoint(ThenBB);
Value *ThenV = ConstantInt::get(TheContext, APInt(32, 2, true));
Builder.CreateStore(ThenV, b);
Builder.CreateBr(MergeBB);

//ElseBB
fun->getBasicBlockList().push_back(ElseBB);
Builder.SetInsertPoint(ElseBB);
Value *ElseV = ConstantInt::get(TheContext, APInt(32, 3, true));
Builder.CreateStore(ElseV, b);
Builder.CreateBr(MergeBB);
最后在MergeBB中，只需要返回b就可以了，如下所示：

//MergeBB
fun->getBasicBlockList().push_back(MergeBB);
Builder.SetInsertPoint(MergeBB);

//返回值
Builder.CreateRet(b);
最后生成的IR如下：

define i32 @fun_ifstmt.1(i32 %a) {
%b = alloca i32
store i32 0, i32* %b
%cmptmp = icmp uge i32 %a, 2
br i1 %cmptmp, label %then, label %else

then: ; preds = %0
store i32 2, i32* %b
br label %ifcont

else: ; preds = %0
store i32 3, i32* %b
br label %ifcont

ifcont: ; preds = %else, %then
ret i32* %b
}
当然，使用内存保存临时变量的性能比较低，但可以很容易通过优化算法，把上述代码从使用内存的版本，优化成使用寄存器的版本。

23. 现在已经能够在内存中建立LLVM的IR对象了，包括模块、函数、基本块和各种指令。LLVM可以即时编译并执行这个IR模型。接下来先创建一个不带参数的__main()函数作为入口，同时会借这个例子延伸一下函数的调用。在前面声明了函数fun1，现在在__main()函数中演示如何调用它，如下所示：

Function * codegen_main(){
//创建main函数
FunctionType *mainType = FunctionType::get(Type::getInt32Ty(TheContext), false);
Function *main = Function::Create(mainType, Function::ExternalLinkage, "__main", TheModule.get());

//创建一个基本块
BasicBlock *BB = BasicBlock::Create(TheContext, "", main);
Builder.SetInsertPoint(BB);

//设置参数的值
int argValues[2] = {2, 3};
std::vector<Value *> ArgsV;
for (unsigned i = 0; i<2; ++i) {
Value * value = ConstantInt::get(TheContext, APInt(32,argValues[i],true));
ArgsV.push_back(value);
if (!ArgsV.back())
return nullptr;
}

//调用函数fun1
Function *callee = TheModule->getFunction("fun1");
Value * rtn = Builder.CreateCall(callee, ArgsV, "calltmp");

//返回值
Builder.CreateRet(rtn);
return main;
}
调用函数时，首先从模块中查找出名称为fun1的函数，准备好参数值，然后通过IRBuilder的CreateCall()方法来生成函数调用指令。最后生成的IR如下：

define i32 @__main() {
%calltmp = call i32 @fun1(i32 2, i32 3)
ret i32 %calltmp3
}
接下来，调用即时编译的引擎来运行__main函数。使用这个JIT引擎，需要做几件事情：

（1）初始化与目标硬件平台有关的设置，如下所示：

InitializeNativeTarget();
InitializeNativeTargetAsmPrinter();
InitializeNativeTargetAsmParser();
（2）把创建的模型加入到JIT引擎中，找到__main()函数的地址（整个过程跟C语言中使用函数指针来执行一个函数没有太大区别），如下所示：

auto H = TheJIT->addModule(std::move(TheModule));

//查找__main函数
auto main = TheJIT->findSymbol("__main");

//获得函数指针
int32_t (*FP)() = (int32_t (*)())(intptr_t)cantFail(main.getAddress());

//执行函数
int rtn = FP();

//打印执行结果
fprintf(stderr, "__main: %d\n", rtn);
（3）程序可以成功执行，并打印__main函数的返回值。

既然已经演示了如何调用函数，这里揭示LLVM的一个惊人特性：可以在LLVM IR里调用本地编写的函数，比如编写一个foo()函数，用来打印输出一些信息：

void foo(int a){
printf("in foo: %d\n",a);
}
然后就可以在__main里直接调用这个foo函数，就像调用fun1函数一样，如下所示：

//调用一个外部函数foo
vector<Type *> argTypes(1, Type::getInt32Ty(TheContext));
FunctionType *fooType = FunctionType::get(Type::getVoidTy(TheContext), argTypes, false);

Function *foo = Function::Create(fooType, Function::ExternalLinkage, "foo", TheModule.get());

std::vector<Value *> ArgsV2;
ArgsV2.push_back(rtn);
if (!ArgsV2.back())
return nullptr;

Builder.CreateCall(foo, ArgsV2, "calltmp2");
注意，在这里只对foo函数做了声明，并没有定义它的函数体，这时LLVM会在外部寻找foo的定义，它会找到用C++编写的foo函数，然后调用并执行；如果foo函数在另一个目标文件中，它也可以找到。

七、代码优化
24. 代码优化是编译器后端的两大工作之一（另一个是代码生成）。代码优化的目标，是优化程序对计算机资源的使用。平常最关心的就是CPU资源，最大效率地利用CPU资源可以提高程序的性能。代码优化有时候还会有其他目标，比如代码大小、内存占用大小、磁盘访问次数、网络通讯次数等等。从代码优化的对象看，大多数的代码优化都是在IR上做的，而不是在前一阶段的AST和后一阶段汇编代码上进行的，为什么呢？

其实，在AST上也能做一些优化，比如在编译器前端，会把一些不必要的AST层次削减掉（例如add->mul->pri->Int，每个父节点只有一个子节点，可以直接简化为一个Int节点），但它抽象层次太高，含有的硬件架构信息太少，难以执行很多优化算法。在汇编代码上进行优化会让算法跟机器相关，当换一个目标机器时还要重新编写优化代码。所以，在IR上是最合适的，它能尽量做到机器独立，同时又暴露出很多的优化机会。

从优化的范围看，分为本地优化、全局优化和过程间优化。优化通常针对一组指令，最常用也最重要的指令组就是基本块。基本块的特点是：每个基本块只能从入口进入，从最后一条指令退出，每条指令都会被顺序执行。因这个特点，在做某些优化时会比较方便。比如针对下面的基本块，可以很安全地把第3行的“y:=t+x”改成“y:= 3 * x”，因为t的赋值一定是在y的前面：

BB1:
t:=2 * x
y:=t + x
Goto BB2
这种针对基本块的优化，叫做本地优化（Local Optimization）。那么另一个问题是能否把第二行的“t:=2 * x”也优化删掉呢？这取决于是否有别的代码会引用t。所以需要进行更大范围的分析，才能决定是否把第二行优化掉。超越基本块的范围进行分析，需要用到控制流图（Control Flow Graph，CFG）。CFG是一种有向图，它体现了基本块之间的指令流转关系。如果从BB1的最后一条指令是跳转到BB2，那么从BB1到BB2就有一条边。一个函数（或过程）里如果包含多个基本块，可以表达为一个CFG，如下图所示：

如果通过分析CFG，发现t在其他地方没有被使用，就可以把第二行删掉。这种针对一个函数、基于CFG的优化，叫做全局优化（Global Optimization）。比全局优化更大范围的优化，叫做过程间优化（Inter-procedural Optimization），它能跨越函数的边界，对多个函数之间的关系进行优化，而不是仅针对一个函数做优化。

但不需要每次都把代码优化做彻底，因为做代码优化本身也需要消耗计算机的资源。所以，需要权衡代码优化带来的好处和优化本身的开销这两个方面，然后确定做多少优化。比如，在浏览器里加载JavaScript时，JavaScript引擎一定会对语法做优化，但如果优化消耗的时间太长界面的响应会变慢，反倒影响用户使用页面的体验，所以JavaScript引擎做优化时要掌握合适的度或调整优化时机。

接下来认识一些常见的代码优化场景：

（1）代数优化（Algebraic Optimazation）。它是最简单的一种优化，当操作符是代数运算时，可以根据数学知识进行优化。比如“x:=x+0”这行代码，操作前后x没有任何变化，所以这样的代码可以删掉；又比如“x:=x*0”可以简化成“x:=0”；对某些机器来说移位运算的速度比乘法快，那么“x:=x*8”可以优化成“x:=x<<3”。

（2）常数折叠（Constant Folding）。它是指对常数的运算可以在编译时计算，比如 “x:= 20 * 3”可以优化成“x:=60”。另外在if条件中，如果条件是一个常量，那就可以确定地取某个分支。比如：“If 2>0 Goto BB2”可以简化成“Goto BB2”就好了。

（3）删除不可达的基本块。有些代码永远不可能被激活，比如在条件编译的场景中会写这样的程序：“if(DEBUG) {…}”。如果编译时DEBUG是一个常量false，那这个代码块就没必要编译了。

（4）删除公共子表达式（Common Subexpression Elimination）。下面这两行代码，x和 y右边的形式是一样的，如果这两行代码之间，a和b的值没有发生变化（比如采用SSA形式），那么x和y的值一定是一样的：

x := a + b
y := a + b
那就可以让y等于x，从而减少了一次“a+b”的计算，如下所示：

x := a + b
y := x
（5）拷贝传播（Copy Propagation）和常数传播（Constant Propagation）。下面的代码中，第三行可以被替换成“z:= 2 * x”，因为y的值就等于x，这叫做拷贝传播：

x := a + b
y := x
z := 2 * y
如果y := 10，常数10也可以传播下去，把最后一行替换成z:= 2 * 10，这叫做常数传播。再做一次常数折叠，就变成z:=20了。

（6）死代码删除（Ded code elimination）。在上面的拷贝传播中，如果没有其他地方使用y变量了，那么第二行就是死代码，就可以删除掉。

一个优化可能导致另一个优化，比如拷贝传播导致 y不再被使用，又可以进行死代码删除的优化。所以一般进行多次优化、多次扫描。

25. 上面这些优化场景，可以用于本地优化、全局优化和过程间优化。这里先看如何做本地优化，后面再接着讨论全局优化。假设下面的代码是一个基本块（省略最后的终结指令）：

a := b
c := a + b
c := b
d := a + b
e := a + b
为了优化它们，方法是计算一个“可用表达式（available expression）”的集合。可用表达式是指存在一个变量，保存着某个表达式的值。从上到下顺序计算这个集合：

（1）一开始是空集。

（2）经过第一行代码后，集合里增加了“a:=b”；

（3）经过第二行代码后，增加了“c:=a+b”。

（4）在经过第三行代码以后，由于变量c的定义变了，所以“c:=a+b”不再可用，而是换成了“c:=b”，如下图所示：

（5）能看到代码“e:=a+b”，和集合中的“d:=a+b”等号右边部分是相同的，所以首先可以删除公共子表达式，优化成“e:=d”。变成下面这样：

（6）然后可以做一下拷贝传播，利用“a:=b”，把表达式中的多个a都替换成b，如下图所示：

到目前为止，a都被替换成了b，对e的计算也简化了，优化后的代码变成了下面这样：

a := b
c := b + b
c := b
d := b + b
e := d
观察一下这段代码，它似乎还存在可优化的空间，比如会存在死代码，可以将其删除。假设在后序的基本块中，b和c仍然会被使用，但其他变量就不会再被用到了。那么上面这5行代码哪行能被删除呢？这时要做活跃性分析（Liveness Analysis）。一个变量是活的，意思是它的值在改变前会被其他代码读取（对于SSA格式的IR，变量定义出来之后就不会再改变，所以只要看后面的代码有没有使用这个变量就可以了）。这里会分析每个变量的活跃性，把死的变量删掉。

这次还是要借助一个集合，不过这个集合是从后向前、倒序计算的，如下图所示：

一开始集合里的元素是{b, c}，这是初始值表示b和c会被后面的代码使用，所以它们是活的。

（1）扫描过“e := d”后，因为用到了d所以d是活的，结果是{b, c, d}。

（2）再扫描“d := b + b”用到了b，但集合里已经有b了；这里给d赋值了，已经满足了后面代码对d的要求，所以可以从集合里去掉d了，结果是{b，c}。

（3）再扫描“c := b”，从集合里去掉c结果是{b}。

（4）继续扫描一直到第一行，最后的集合仍然是{b}。

现在基于这个集合，就可以做死代码删除了。当给一个变量赋值时，它后面跟着的集合没有这个变量，说明它不被需要，就可以删掉了。下图中标红色的三行都是死代码，都可以删掉：

删掉以后只剩下了两行代码。注意由于“e := d”被删掉了，导致d也不再被需要，变成了死变量，如下图所示：

把变量d删掉以后，就剩下了一行代码“c := b”了：

到此为止完成了整个的优化过程，5行代码优化成了1行代码。总结一下这个优化过程：

（1）首先做一个正向扫描，进行可用表达式分析，建立可用表达式的集合，然后参照这个集合替换公共子表达式，以及做拷贝传播。

（2）接着做一个反向扫描，进行活跃性分析，建立活变量的集合识别出死变量，并依据它删除给死变量赋值的代码。

（3）上述优化可能需要做不止一遍，才能得到最后的结果。

上面做的优化是基于一段顺序执行的代码，没有跳转，都是属于一个基本块的，属于本地优化。本地优化中，可用表达式分析和活跃性分析都可以看做是由下面4个元素构成的：

（1）D（方向）。是朝前还是朝后遍历。

（2）V（值）。代码的每一个地方都要计算出一个值。可用表达式分析和活跃性分析的值是一个集合，也有些分析的值并不是集合。

（3）F（转换函数，对V进行转换）。比如在做可用表达式分析时，遇到“c := b”时，可用表达式的集合从{a := b, c := a + b}转换成了{a := b, c := b}。这里遵守的转换规则是：因为变量c被重新赋值了，那么就从集合里把变量c原来的定义去掉，并把带有c的表达式都去掉，因为过去的c已经失效了，然后把变量c新的定义加进去。

（4）I（初始值，是算法开始时V的取值）。做可用表达式分析时初始值是空集。在做活跃性分析时初始值是后面代码中还会访问的变量，也就是活变量。

26. 上面这样形式化以后，就可以按照这个模型来统一理解各种本地优化算法。接下来熟悉一下LLVM的优化功能。前面曾经用Clang命令带上O2参数来生成优化的IR：

clang -emit-llvm -S -O2 fun1.c -o fun1-O2.ll
实际上，LLVM还有一个单独的命令opt来做代码优化。缺省情况下它的输入和输出都是.bc文件，所以还要在.bc和.ll两种格式之间做转换，如下所示：

clang -emit-llvm -S fun1.c -o fun1.ll //生成LLVM IR
llc fun1.ll -o fun1.bc //编译成字节码
opt -O2 fun1.bc -o fun1-O2.bc //做O2级的优化
llvm-dis fun1-O2.bc -o fun1-O2.ll //将字节码反编译成文本格式
其中要注意的一点，是要把第一行命令生成的fun1.ll文件中的“optone”这个属性去掉，因为这个它的意思是不要代码优化。还可以简化上述操作，给opt命令带上-S参数直接对.ll文件进行优化：

opt -S -O2 fun1.ll -o fun1-O2.ll
-O2代表的是二级优化，LLVM中定义了多个优化级别，基本上数字越大所做的优化就越多。可以不使用笼统的优化级别，而是指定采用某个特别的优化算法，比如mem2reg算法会把对内存的访问优化成尽量访问寄存器，如下所示：

opt -S -mem2reg fun1.ll -o fun1-O2.ll
对于常数折叠，在调用API生成IR时LLVM缺省就会去做这个优化。比如下面这段代码是返回2+3的值，但生成IR时直接变成了5，因为这种优化比较简单不需要做复杂的分析：

Function * codegen_const_folding(){
//创建函数
FunctionType *funType = FunctionType::get(Type::getInt32Ty(TheContext), false);
Function *fun = Function::Create(funType, Function::ExternalLinkage, "const_folding", TheModule.get());

//创建一个基本块
BasicBlock *BB = BasicBlock::Create(TheContext, "", fun);
Builder.SetInsertPoint(BB);

Value * tmp1 = ConstantInt::get(TheContext, APInt(32, 2, true));
Value * tmp2 = ConstantInt::get(TheContext, APInt(32, 3, true));
Value * tmp3 = Builder.CreateAdd(tmp1, tmp2);

Builder.CreateRet(tmp3);
return fun;
}
生成的IR如下：

define i32 @const_folding() {
ret i32 5
}
需要注意，很多优化算法都是要基于寄存器变量来做，所以通常都会先做一下-mem2reg优化。在LLVM中做优化算法很方便，因为它采用的是SSA格式。具体来说，LLVM中定义了Value和User两个接口，它们体现了LLVM IR最强大的特性，即静态单赋值中的定义-使用链，这种定义-使用关系会被用到优化算法中。前面已经讲过了Value类。如果一个类是从Value继承的意味着它定义了一个值。另一个类是User类，函数和指令也是User类的子类，也就是说在函数和指令中，可以使用别的地方定义的值，如下图所示：

这两个类是怎么帮助到优化算法中的呢？在User中可以访问所有它用到的Value，比如一个加法指令（%c = add nsw i32 %a, %b）用到了a和b这两个变量。而在Value中可以访问所有使用这个值的User，比如给c赋值的这条指令。所以可以遍历一个Value的所有User把它替换成另一个Value，这就是拷贝传播。

接下来，看看如何用程序实现IR的优化。在LLVM内部，优化工作是通过一个个的Pass（遍）来实现的，它支持三种类型的Pass：

（1）一种是分析型的Pass（Analysis Passes），只是做分析产生一些分析结果用于后序操作。

（2）一些是做代码转换的（Transform Passes），比如做公共子表达式删除。

（3）还有一类pass是工具型的，比如对模块做正确性验证。

下面的代码创建了一个PassManager，并添加了两个优化Pass：

// 创建一个PassManager
TheFPM = std::make_unique<legacy::FunctionPassManager>(TheModule.get());

// 窥孔优化和一些位计算优化
TheFPM->add(createInstructionCombiningPass());

// 表达式重关联
TheFPM->add(createReassociatePass());

TheFPM->doInitialization();
之后，再简单地调用PassManager的run()方法就可以对代码进行优化：

TheFPM->run(*fun);
八、数据流分析
27. 上面提到了删除公共子表达式、拷贝传播等本地优化能做的工作，其实这几个工作也可以在全局优化中进行。只不过全局优化中的算法，不会像在本地优化中一样只针对一个基本块，而是更复杂一些，因为要覆盖多个基本块。这些基本块构成了一个CFG，代码在运行时有多种可能的执行路径，这会造成多路径下值的计算问题，比如活跃变量集合的计算。当然还有些优化只能在全局优化中做，在本地优化中做不了，比如：

（1）代码移动（code motion）能够将代码从一个基本块挪到另一个基本块，比如从循环内部挪到循环外部，来减少不必要的计算。

（2）部分冗余删除（Partial Redundancy Elimination），它能把一个基本块都删掉。

总之，全局优化比本地优化能做的工作更多，分析算法也更复杂，因为CFG中可能存在多条执行路径。不过，可以在上面提到的本地优化的算法思路上，解决掉多路径情况下V值的计算问题。而这种基于CFG做优化分析的方法框架，就叫做数据流分析。前面讲了本地优化时的活跃性分析，那时情况比较简单，不需要考虑多路径问题。而在做全局优化时，情况就要复杂一些：代码不是在一个基本块里简单地顺序执行，而可能经过控制流图（CFG）中的多条路径。来看一个例子（由if语句形成了两条分支语句）：

基于这个CFG可以做全局的活跃性分析，从最底下的基本块开始，倒着向前计算活跃变量的集合（即从基本块5倒着向基本块1计算）。这里需要注意，对基本块1进行计算时，它的输入是基本块2的输出也就是{a, b, c}，和基本块3的输出也就是{a, c}，计算结果是这两个集合的并集{a, b, c}。也就是说基本块1的后序基本块，有可能用到这三个变量。这里就是与本地优化不同的地方，要基于多条路径来计算，如下图所示：

基于这个分析图，马上发现y变量可以被删掉（因为它前面的活变量集合{x}不包括y，也就是不被后面的代码所使用），并且影响到了活跃变量的集合，如下图所示：

删掉y变量以后再继续优化一轮，会发现d也可以删掉。如下图所示：

d删掉以后，2号基本块里面已经没有代码了，也可以被删掉，最后的CFG是下面这样：

到目前为止发现：全局优化总体来说跟本地优化很相似，唯一的不同就是要基于多个分支计算集合的内容（也就是V值）。在进入基本块1时，2和3两个分支相遇（meet），取了2和3的V值的并集，这就是数据流分析的基本特征。但是，上面这个CFG还是比较简单的，因为它没有循环属于有向无环图。这种图的特点是：针对图中的每一个节点，总能找到它的前序节点和后序节点，所以只需要按照顺序计算就好了。但是如果加上了环路，就不那么简单了，来看一看下面这张图：

基本块4有两个后序节点，分别是5和1，所以要计算4的活跃变量，就需要知道5和1的输出是什么。5的输出好说，但1的还没计算出来，因为要计算1就要依赖2和3，从而间接地又依赖了4。这样一来，1和4是循环依赖的。再进一步探究发现，其实1、2、3、4四个节点之间都是循环依赖的。所以说，一旦在CFG中引入循环回路，严格的前后计算顺序就不存在了。

在前端部分计算First和Follow集合时，就会遇到循环依赖的情况，只不过那里没有像这样展开细细地分析。不过，那个时候是用不动点法来破解僵局的，在这里还是要运用不动点法，具体操作是：给每个基本块的V值都分配初始值，也就是空集合，如下图所示：

然后对所有节点进行多次计算，直到所有集合都稳定为止。第一遍时按照5-4-3-2-1的顺序计算（实际上采取任何顺序都可以），计算结果如下：

如果现在计算就结束，实际上可以把基本块2中的d变量删掉。但如果再按照5-4-3-2-1的顺序计算一遍，就会往集合里增加一些新的元素（图中标的是红色）。这是因为在计算基本块4时，基本块1的输出{b, c, d}也会变成4的输入。这时发现进入基本块2时，活变量集合里是含有d的，所以d是不能删除的，如下图所示：

再仔细看，这个d是是基本块3需要的：它会跟1去要，1会跟4要，4跟2要。所以再次证明，1、2、3、4四个节点是互相依赖的。再来看一下，对于活变量集合的计算，当两个分支相遇的情况下，最终的结果取了两个分支的并集。前面提到过一个本地优化分析包含四个元素：方向（D）、值（V）、转换函数（F）和初始值（I）。在做全局优化时需要再多加一个元素，就是两个分支相遇时要做一个运算，计算他们相交的值，这个运算可以用大写希腊字母Λ（lambda）表示。包含了D、V、F、I和Λ的分析框架，就叫做数据流分析。

28. 那么Λ怎么计算呢？需要用到一个数学工具，叫做“半格”（Semilattice）。首先，半格是一种偏序集（Partially Ordered Set）。偏序集就是集合中只有部分成员能够互相比较大小，例如在做全局活跃性分析时，{a, b, c}和{a, c}相遇产生的新值是{a, b, c}，形式化地写成{a, b, c}Λ{a, c} = {a, b, c}。这时候说{a, b, c}是可以跟{a, c}比较大小的。那么哪个大哪个小呢？如果 XΛY=X，就说X<=Y。所以{a, b, c}是比较小的，{a, c}是比较大的。

当然，{a, b, c}也可以跟{a, b}比较大小，但它没办法跟{c, d}比较大小。所以把包含了{{a, b, c}、{a, c}、{a, b}、{c, d}…}这样的一个集合，叫做偏序集，它们中只有部分成员之间可以比较大小。哪些成员可以比较呢？就是下面的半格图中，可以通过有方向的线连起来。半格可以画成图形，假设程序只有a, b, c三个变量，那么这个半格画成图形是这样的：

沿着上面图中的线，两个值是可以比较大小的，按箭头的方向依次减少：{}>{a}>{a, b}> {a, b, c}。如果两个值之间没有一条路径，那么它们之间就是不能比较大小的，就像{a}和{b}就不能比较大小。对于这个半格，把{}（空集）叫做Top，Top大于所有其他的值。而{a, b, c}叫做Bottom，它是最小的值。在做活跃性分析时，Λ运算是计算两个值的最大下界（Greatest Lower Bound）。就是比两个原始值都小的值中，取最大的那个。{a}和{b}的最大下界是{a, b}，{a, b, c}和{a, c}的最大下界就是{a, b, c}，规则如下：

（1）如果一个偏序集中，任意两个元素都有最大下界，那么这个偏序集就叫做交半格（Meet Semilattice）。

（2）与此相对应的，如果集合中的每个元素都有最小上界（Least Upper Bound），那么这个偏序集叫做并半格（Join Semilattice）。

（3）如果一个偏序集既是交半格，又是并半格，就说这个偏序集是一个格，上面示例的这个偏序集就是一个格（Lattice）。

那为什么要引入这么复杂的一套数学工具呢？两个分支相遇就计算它们的并集，不就可以了吗？事情没那么简单。因为并不是所有的分析，其V值都是一个集合，就算是集合，相交时的运算也不一定是求并集，而有可能是求交集。这里通过另一个案例来分析一下非集合的半格运算：常数传播。

常数传播，就是如果知道某个变量的值是个常数，那么就把用到这个变量的表达式，都用常数去替换。看看下面的例子，在基本块4中a的值能否用一个常数替代？

答案是不能。到达基本块4的两条路径，一条a=3另一条a=4，不知道在实际运行时会从哪条路径过来，所以这个时候a的取值是不确定的，基本块4中的a无法用常数替换。在这种情况下，V不再是一个集合，而是a可能取的常数值，但a有可能不是一个常数，所以再定义一个特殊的值：Top（T）。除了T之外，再引入一个与T对应的特殊值：Bottom（含义是某个语句永远不会被执行）。总结起来，常数传播时V的取值可能是3个：

（1）常数c。

（2）Top：意思是a的值不是一个常数。

（3）Bottom：某个语句不会被执行。

这些值是怎么排序的呢？最大的是Top，中间各个常数之间是无法比较的，Bottom是最小的。接下来，看看如何计算多个V值相交的值。再把计算过程形式化一下，在这个分析中当经过每个语句时，V值都可能发生变化，用下面两个函数来代表不同地方的V值：

（1）C(a, s, in)。表示在语句s之前a的取值，比如C(a, b:=a+2, in) = 3。

（2）C(a, s, out)。表示在语句s之后a的取值，比如C(a, a:=4, out) = 4。

如果s的前序有i条可能的路径，那么多个输出和一个输入“C(a, si, out)和C(a, s, in)”的关系，可以制定一系列规则：

（1）如果有一条输入路径是Top，或者说C(a, si, out)是Top，那么结果C(a, s, in)就是Top。

（2）如果输入中有两个不同的常数比如3和4，那么结果也是Top。

（3）如果所有的输入都是相同的常数或Bottom，那么结果就是该常数。例如如果所有路径a的值都是3，那么这里就可以安全地认为a的值是3。那些Bottom路径不影响，因为整条路径不会执行。

（4）如果所有的输入都是Bottom，那么结果也是Bottom。

上面的这4个规则，就是一套半格的计算规则。在这里也可以总结一下它的转换规则也就是F，考虑一下某个Statement的in值和out值的关系，也就是经过该Statement以后，V值会有啥变化：

（1）如果输入是Bottom，那么输出也是Bottom。也就是这条路径不会经过。

（2）如果该Statement就是“a := 常数”，那么输出就是该常数。

（3）如果该Statement是a赋予的一个比较复杂的表达式而不是常数，那么输出就是Top。

（4）如果该Statement不是对a赋值的，那么V值保持不变。

这样转换函数F也搞清楚了。初始值I其实就是Top，因为一开始时a还没有赋值，所以不会是常数；方向D是向下的，这个时候D、V、F、I 和Λ这5个元素都清楚了，就可以写算法实现了。

九、目标代码生成和优化
29. 一个正式的编译器后端，代码生成部分需要考虑得更加严密才行，其实主要有三点：

（1）指令的选择。同样一个功能可以用不同的指令或指令序列来完成，而需要选择比较优化的方案。

（2）寄存器分配。每款CPU的寄存器都是有限的，要有效地利用它。

（3）指令重排序。计算执行的次序会影响所生成的代码的效率。在不影响运行结果的情况下，要通过代码重排序获得更高的效率。

接下来针对第一个问题，聊聊为什么需要选择指令，以及如何选择指令。如果不考虑目标代码的性能，可以按照非常机械的方式翻译代码。比如可以制定一个代码翻译的模板，把形如“a := b + c”的代码都翻译成下面的汇编代码：

mov b, r0 //把b装入寄存器r0
add c, r0 //把c加到r0上
mov r0, a //把r0存入a
那么，下面两句代码：

a := b + c
d := a + e
将被机械地翻译成：

mov b, r0
add c, r0
mov r0, a
mov a, r0
add e, r0
mov r0, d
可以从上面这段代码中看到，第4行其实是多余的，因为r0的值就是a不用再装载一遍了。另外，如果后面的代码不会用到a（即a只是个临时变量），那么第3行也是多余的。这种算法正确性没有问题，但代码量太大代价太高。所以最好用聪明一点的算法来生成更加优化的代码。这是要做指令选择的原因之一。

做指令选择的第二个原因是，实现同一种功能可以使用多种指令，特别是CISC指令集（可替代选择很多，但各自有适用的场景）。对某个CPU来说，完成同样的任务可以采用不同的指令。比如实现“a := a + 1”可以生成三条代码，如下所示：

mov a, r0
add $1, r0
mov r0, a
也可以直接用一行代码即采用inc指令，而要看看用哪种方法总体代价最低：

inc a
第二个例子，把r0寄存器置为0，也可以有多个方法，如下图所示：

mov $0, r0 //赋值为立即数0
xor r0, r0 //异或操作
sub r0, r0 //用自身的值去减
...
再比如，a * 7可以用a<<3 - a 实现：首先移位3位相当于乘8，然后再减去一次a就相当于乘以7。虽然用了两条指令，但是可能消耗的总时钟周期更少。那么做指令选择的思路是什么呢？目前最成熟的算法都是基于树覆盖的方法，下面通过一个例子了解一下什么是树覆盖算法，a[i] = b这个表达式中，假设a和b都是栈里的本地变量，i是放在寄存器ri中。这个表达式可以用一个AST表示，如下图所示：

可能觉得这棵树看着像AST但又不大像，那是因为里面有mem节点（意思是存入内存）、mov节点、栈指针 (fp)。它可以算作低级（low-level）AST，是一种IR的表达方式，有时被称为结构化IR。这个AST里包含了丰富的运行时细节信息，相当于把LLVM的IR用树结构来表示了，可以把一个基本块的指令都画成这样的树状结构。基于这棵树，可以翻译成如下的汇编代码：

load M[fp+a], r1 //取出数组开头的地址，放入r1，fp是栈顶的指针，a是地址的偏移量
addi 4, r2 //把4加载到r2
mul ri, r2 //把ri的值乘到r2上，即i*4，即数组元素的偏移量，每个元素4字节
add r2, r1 //把r2加到r1上，也就是算出a[i]的地址
load M[fp+b], r2 //把b的值加载到r2寄存器
store r2, M[r1] //把r2写入地址为r1的内存
这里用了一种假想的汇编代码，跟LLVM IR有点像，但更简化、易读，如下图所示：

用树覆盖的方法可以大大减少代码量，下图中用红色线包围的部分被叫做一个瓦片 (tiling)，那些包含了操作符的瓦片，就可以转化成一条指令。每个瓦片可以覆盖多个节点，所以生成的指令比较少：

那用什么来做瓦片呢？每条机器指令都会对应IR的一些模式（Pattern），可以表示成一些小的树，而这些小树就可以当作瓦片，如下图所示：

该算法可以遍历AST，遇到上面的模式就可以生成对应的指令。以load指令为例，它有几个模式：任意一个节点加上一个常量，这相当于汇编语言中的间接地址访问；或者mem下直接就是一个常量，这相当于是直接地址访问。最后，地址值还可以由下级子节点计算出来。

所以，从一棵AST生成代码的过程，就是用上面这些小树去匹配一棵大树，并把整个大树覆盖的过程，所以叫做树覆盖算法。上面图中2、4、5、6、8、9这几个节点依次生成汇编代码。要注意的是，覆盖方式可能会有多个，比如下面这个覆盖方式，相比之前的结果，它在8和9两个瓦片上是有区别的：

这样生成的汇编代码最后两句也不同，如下所示：

load M[fp+a], r1 //取出数组开头的地址，放入r1，fp是栈顶的指针，a是地址的偏移量
addi 4, r2 //把4加载到r2
mul ri, r2 //把ri的值乘到r2上，即i*4，即数组元素的偏移量，每个元素4字节
add r2, r1 //把r2加到r1上，也就是算出a[i]的地址
addi fp+b, r2 //把fp+b的值加载到r2寄存器
movm M[r2], M[r1] //把地址为r2到值拷贝到地址为r1内存里
可以体会一下，这两个覆盖方式的差别：

（1）对于瓦片8中的加法运算，一个当做了间接地址的计算，一个就是当成加法；

（2）对于根节点的操作，一个翻译成store，把寄存器中的b的值写入到内存。一个翻译成movm指令，直接在内存之间拷贝值。至于这两种翻译方法哪种更好，比较总体的性能哪个更高就行了。

到目前为止，已经直观地了解了为什么要进行指令选择，以及最常用的树覆盖方法了。当然树覆盖算法有很多，比如Maximal Munch算法、动态规划算法、树文法等，LLVM也有自己的算法。简单说下Maximal Munch算法，直译成中文是每次尽量咬一大口的意思，也就是从树根开始，每次挑一个能覆盖最多节点的瓦片，这样就形成几棵子树。对每棵子树也都用相同的策略，这样会使得生成的指令是最少的。注意指令顺序要反过来，按照深度优先的策略，先是叶子再是树根。这个算法是Optimal的算法，它指在局部，相邻的两个瓦片不可能连接成代价更低的瓦片。覆盖算法除了Optimal的还有Optimum的，Optimum是全局最优化的状态，就是代码总体的代价是最低的。

30. 接下来继续探讨前面提到的第二个问题：寄存器分配。寄存器优化的任务是：最大程度地利用寄存器，但不要超过寄存器总数量的限制。因为生成IR时是不知道目标机器的信息的，也就不知道目标机器有几个寄存器可以用，所以在IR中可以使用无限个临时变量，每个临时变量都代表一个寄存器。现在既然要生成针对目标机器的代码，也就知道这些信息了，那就要把原来的IR改写一下，以便使用寄存器时不超标。

寄存器优化的原理是什么呢？例如下图左边的IR中，a、d、f这三个临时变量不会同时出现。假设a和d在这个代码块之后成了死变量，那么这三个变量可以共用同一个寄存器，就像右边显示的那样：

实际上，这三行代码是对“b + c + e + 10”这个表达式的翻译，所以a和d都是在转换为IR时引入的中间变量，用完就不用了。所以通过这个例子，可以直观地理解寄存器共享的原则：如果存在两个临时变量a和b，它们在整个程序执行过程中最多只有一个变量是活跃的，那么这两个变量可以共享同一个寄存器。

前面已经提过了如何做变量的活跃性分析，所以可以分析出，在任何一个程序点活跃变量的集合。然后再看一下，哪些变量从来没有出现在同一个集合中就行。看看下面这个图：

上图中，凡是出现在同一个花括号里的变量都不能共享寄存器，因为它们在某个时刻是同时活跃的。那a到f哪些变量从来没碰到过呢？再画一个图来寻找一下，下图中每个临时变量作为一个节点，如果两个变量同时存在过，就画一条边。这样形成的图叫做寄存器干扰图 (Register Interference Graph, RIG)。在这张图里，凡是没有连线的两个变量就可以分配到同一个寄存器，例如a和b，b和d，a和d，b和e，a和e：

那针对这个程序，一共需要几个寄存器，怎么分配呢？比较常用的算法是图染色算法：只要两个节点之间有连线，节点就染成不同的颜色。最后所需要的最少颜色就是所需要的寄存器的数量。下图画了两个染色方案，都是需要4 种颜色：

那么如何用算法来染色呢？如何用算法知道寄存器是否够用？染色算法其实是，如果想知道k个寄存器够不够用，只需要找到一个少于k条边的节点，把它从图中去掉。接着再找下一个少于k条边的节点，再去掉。如果最后整个图都被删掉了，那么这个图一定可以用k种颜色来染色。如下图所示：

因为如果一个图（蓝色椭圆）是能用k种颜色染色的，那么再加上一个节点，它的边的数量少于k个比如是n，那么这个大一点的图（红色椭圆）还是可以用 k 种颜色染色。因为加进来的节点的边数少于k个，所以一定能找到一个颜色，与这个点的n个邻居都不相同。所以，把刚才一个个去掉节点的顺序反过来，把一个个节点依次加到图上，每加上一个，就找一个它的邻居没有用的颜色来染色就行了。

但是，如果所需要寄存器比实际寄存器的数量多，那就要用栈了。这个问题就是寄存器溢出（Register Spilling），溢出到栈里去，像本地变量、参数、返回值等都尽量用寄存器，如果寄存器不够用就放到栈里。另外无论放在寄存器里还是栈里，都是活动记录的组成部分，所以活动记录这个概念比栈桢更广义。依然是上面的例子，如果只有3个寄存器，那么要计算一下3个寄存器够不够用，先把a和b从图中去掉，如下所示：

这时发现，剩下的4个节点，每个节点都有3个邻居，所以3个寄存器肯定不够用，必须要溢出一个去。可以选择让f保存在栈里，把f去掉以后，剩下的c，d，e可以用3种颜色成功染色。f虽然被保存到了栈里，但每次使用它时都要load到一个临时变量，也就是寄存器中。每次保存f也都要用一个临时变量写入到内存。所以要把原来的代码修改一下，把每个使用f的地方都加上一条load或save指令，以便在使用f时把f放到寄存器，用完后再写回内存。修改后的CFG如下：

因为原来有4个地方用到了f，所以引入了f1到f4四个临时变量。这样总的临时变量反而变多了，从6个到了9个。不过虽然临时变量更多了，但这几个临时变量的生存期都很短，图里带有f的活跃变量集合比之前少多了。所以，即使有9个临时变量，也能用三种颜色染色，如下图所示：

最后，在选择把哪个变量溢出时，最好选择使用次数最少的变量。在程序内循环中的变量就最好不要溢出，因为每次循环都会用到它们，还是放在寄存器里性能更高。

31. 前面了解了指令选择和寄存器分配，这里继续探讨目标代码生成的第三个需要考虑的因素：指令重排序（Instruction Scheduling）。人们通常会把CPU看做一个整体，把CPU执行指令的过程想象成依此检票进站的过程，改变不同乘客的次序并不会加快检票的速度。所以会自然而然地认为改变顺序并不会改变总时间。但当进入CPU内部，会看到CPU是由多个功能部件构成的。下图是Ice Lake微架构的CPU内部构成：

在这个结构中，一条指令执行时要依次用到多个功能部件，分成多个阶段，虽然每条指令是顺序执行的，但每个部件的工作完成以后，就可以服务于下一条指令，从而达到并行执行的效果。这种结构叫做流水线（pipeline）结构。比如典型的RISC指令在执行过程会分成前后共5个阶段：

（1）IF：获取指令；

（2）ID（或RF）：指令解码和获取寄存器的值；

（3）EX：执行指令；

（4）ME（或MEM）：内存访问（如果指令不涉及内存访问，该阶段可以省略）；

（5）WB：写回寄存器。

对于CISC指令，CPU的流水线会根据指令的不同分成更多个阶段。在执行指令的阶段，不同的指令也会由不同的单元负责，可以把这些单元叫做执行单元，比如Intel的Ice Lake架构CPU有下面这些执行单元：

其他执行单元还有：BM、Vec ALU、Vec SHFT、Vec Add、Vec Mul、Shuffle等。因为CPU内部存在着多个功能单元，所以在同一时刻，不同的功能单元其实可以服务于不同的指令，如下图所示；

这样多条指令实质上是并行执行的，从而减少了总的执行时间，这种并行叫做指令级并行。如果没有这种并行结构，或者由于指令之间存在依赖关系，无法并行，那么执行周期就会大大加长，如下图所示：

来看一个实际的例子。假设load和store指令需要3个时钟周期来读写数据，add指令需要1个时钟周期，mul指令需要2个时钟周期。图中红色的编号是原来的指令顺序，绿色的数字是每条指令开始时的时钟周期，把每条指令的时钟周期累计一下就能算出来。最后一条指令开始的时钟周期是20，该条指令运行需要3个时钟周期，所以在第22个时钟周期执行完所有的指令。右边是重新排序后的指令，一共花了13个时钟周期。优化力度还是很大的：

看下左边前两条指令，这两条指令的意思是：先加载数据到寄存器，然后做一个加法。但加载需要3个时钟周期，所以add指令无法执行只能干等着。右列的前三条都是load指令，它们之间没有数据依赖关系，可以每个时钟周期启动一个，到了第四个时钟周期，每一条指令的数据已经加载完毕，所以就可以执行加法运算了。可以把右边的内容画成下面的样子，能看到很多指令在时钟周期上是重叠的，这就是指令级并行的特点：

32. 当然不是所有的指令都可以并行，最后的3条指令就是顺序执行的，导致无法并行的原因有几个：

（1）数据依赖约束。如果后一条指令要用到前一条指令的结果，那必须排在它后面，比如下面两条指令add和mul，对于第二条指令来说，除了获取指令的阶段（IF）可以和第一条指令并行以外，其他阶段需要等第一条指令的结果写入r1，第二条指令才可以使用r1的值继续运行：

add r2, r1
mul r3, r1

（2）功能部件约束。如果只有一个乘法计算器，那么一次只能执行一条乘法运算，如下图所示：

（3）指令流出约束。指令流出部件一次流出n条指令。

（4）寄存器约束。寄存器数量有限，指令并行时使用的寄存器不可以超标。

后三者也可以合并成为一类，称作资源约束。在数据依赖约束中，如果有因为使用同一个存储位置，而导致不能并行的，可以用重命名变量的方式消除，这类约束被叫做伪约束。而先写再写，以及先读后写是伪约束的两种呈现方式：

（1）先写再写：如果指令A写一个寄存器或内存位置，B也写同一个位置，就不能改变A和B的执行顺序，不过可以修改程序让A和B写不同的位置。

（2）先读后写：如果A必须在B写某个位置之前读某个位置，那么不能改变A和B的执行顺序。除非能够通过重命名让它们使用不同的位置。

用算法对指令进行重排序的关键点，是要找出代码之间的数据依赖关系。下图展现了示例中各行代码之间的数据依赖，可以叫做数据的依赖图（dependence graph）。它的边代表了值的流动，比如a行加载了一个数据到r1，b行利用r1来做计算，所以b行依赖a行，这个图也可以叫做优先图（precedence graph），因为a比b优先，b比d优先：

可以给图中的每个节点再加上两个属性，利用这两个属性就可以对指令进行排序了：

（1）操作类型，因为这涉及它所需要的功能单元。

（2）时延属性，也就是每条指令所需的时钟周期。

图中的a、c、e、g是叶子，它们没有依赖任何其他的节点，所以尽量排在前面。b、d、f、h必须出现在各自所依赖的节点后面。而根节点i总是要排在最后面。根据时延属性计算出每个节点的累计时延（每个节点的累计时延等于父节点的累计时延加上本节点的时延），其中a-b-d-f-h-i路径是关键路径，代码执行的最少时间就是这条路径所花的时钟周期之和，如下图所示：

因为a在关键路径上，所以首先考虑把a节点排在第1行。剩下的树中，c-d-f-h-i变成了关键路径，因为c的累计时延最大，c节点可以排在第2行，如下图所示：

b和e的累计时延都是最长的，但由于b必须在a执行完毕后，才会开始执行，所以最好等够a的3个时钟周期，否则还是会空等，所以先不考虑b，而是把e放到第3行，如下图所示：

继续按照这个方式排，最后可以获得a-c-e-b-d-g-f-h-i的指令序列。不过这个代码还可以继续优化：也就是发现并消除其中的伪约束。c和e都向r2里写了值，而d使用的是c写入的值。如果修改变量名称，比如让e使用r3寄存器，就可以去掉e跟d，以及e与c之间伪约束，让e就可以排在c和d之前。同理也可以让g使用r4寄存器，使得g可以排在e和f的前面。当然在这个示例中，这种改变并没有减少总的时间消耗，因为关键路径上的依赖没有变化，它们都使用了r1寄存器。但在别的情况下，就有可能带来更大的优化。如下图所示：

刚才其实是采用了List Scheduling算法，大致分为 4 步：

（1）把变量重命名来消除伪约束（可选步骤）。

（2）创建依赖图。

（3）为每行代码计算优先值（计算方法有很多，比如示例中基于最长时延的方法）。

（4）迭代处理代码并排序。

不过算法都需要考虑到复杂度，关于指令选择、寄存器分配和指令重排序的算法，其难度（时间复杂度）都是“NP-完全”的，意思是这类问题找不到一个随规模（代码行数）增大而计算量增长较慢的算法（多项式时间算法），从而找到最优解。反之，计算量可能会随着代码行数呈指数级上升。因此，编译原理中的一些难度高的算法，都在代码生成这一环。

33. 到目前为止，了解了目标代码生成的三大考虑因素：指令选择、寄存器分配和指令重排序。现在来看看目标代码生成，在LLVM中是如何实现的。LLVM的后端需要多个处理步骤来生成目标代码，如下图所示：

图中红色的部分是重要步骤，它本身包含了多个Pass，所以也叫做超级Pass。图中蓝框的Pass，是用来做一些额外的优化处理。接下来讲LLVM生成目标代码的关键步骤：

（1）指令选择。LLVM的指令选择算法是基于DAG（有向无环图）的树模式匹配，与前一讲基于AST的算法有一些区别，但总思路是一致的。这个算法是Near-Optimal（接近Optimal）的，能够在线性时间内完成指令的选择，并且它关注产生代码的尺寸，要求尺寸足够小。DAG是融合了公共子表达式的AST，也是一种结构化的IR。下面两行代码对应的AST和DAG如下图所示，能看到DAG把a=5这棵子树给融合了：

a = 5
b = (2 + a）+ (a * 3)

LLVM把内存中的IR模型，转化成了一个体现某个目标平台特征的SelectionDAG，用于做指令选择。每个基本块转化成一个DAG，DAG中的节点通常代表指令，边代表指令之间的数据流动。在这个阶段之后，LLVM会把DAG中的LLVM IR节点，全部转换成目标机器的节点，代表目标机器的指令，而不是LLVM的指令。