编译器的优化选项和简单解析

jc小小川+幻幻融hr

已于 2024-03-21 09:44:11 修改

阅读量4.6k

点赞数 16

分类专栏：小小川编译器文章标签：人工智能 AI编程硬件架构开发语言

于 2024-03-18 19:49:29 首次发布

本文链接：https://blog.csdn.net/u012276729/article/details/136813963

版权

小小川编译器专栏收录该内容

14 篇文章

订阅专栏

编译器的优化级别O0、O1、O2和O3在代码编译时提供了不同的优化程度，它们的主要区别在于编译时间、目标文件大小和执行效率之间的平衡。

O0（无优化）：这是默认的优化级别，编译器不执行任何优化。它主要用于调试目的，因为在此级别下，编译器会尽量保持源代码的原始结构，使得调试信息更加准确。此外，O0级别下的编译时间通常是最短的。
O1（基本优化）：这个级别执行一些基本的优化操作，如删除未使用的变量、内联简单函数等。这些优化可以提高代码的执行效率，同时保持较快的编译速度。与O0相比，O1级别在编译时间和执行效率之间达到了一个较好的平衡。
O2（中级优化）：在O1的基础上，O2级别进行了更多的优化操作，包括更大范围的内联、循环展开、函数调用图优化等。这些优化可以显著提高代码的性能，但编译时间可能会稍长。O2级别是推荐的优化等级，除非有特殊需求。
O3（高级优化）：在O2的基础上，O3级别进行了更深入的优化操作，如更大范围的内联、循环变形、自动向量化等。这可以进一步提高代码的性能，但编译时间可能大幅增加。使用O3级别需要权衡编译时间和执行效率之间的关系。

除了以上四个优化级别外，还有一些扩展的优化级别，如Os（优化代码尺寸）。这个级别旨在优化代码的尺寸，尽量减小可执行文件的大小。它对于磁盘空间紧张或CPU缓存较小的机器非常有用，但也可能产生些许问题。因此，在软件树中的大部分情况下并不推荐使用Os优化级别。

在计算机科学中，控制流图（Control Flow Graph，CFG）是一个表示程序所有可能执行路径的抽象数据结构。在CFG中，每个节点代表程序中的一个基本块（Basic Block，BB），而边则代表控制流的可能转移。

基本块（Basic Block，BB）是程序中的一段线性代码序列，它满足以下条件：

基本块内的代码是顺序执行的，没有分支（如if语句或switch语句）和循环结构。
基本块只有一个入口点，即基本块的第一条指令。
基本块只有一个出口点，即基本块的最后一条指令，或者是一个跳转、返回等改变控制流的指令。

在CFG中，基本块通常作为图的节点，而控制流的转移（如条件跳转、无条件跳转、函数调用和返回等）则作为图的边。这种表示方法有助于进行程序的静态分析、优化和代码生成等任务。

例如，考虑以下简单的C语言程序片段：

	`if (a > b) {`
	`x = a - b;`
	`} else {`
	`x = b - a;`
	`}`
	`y = x * 2;`

这个程序片段的CFG可能包含三个基本块：

基本块1：包含if (a > b)的条件判断。这个基本块有两个出口：一个对应于条件为真时的执行路径（跳转到基本块2），另一个对应于条件为假时的执行路径（跳转到基本块3）。
基本块2：包含x = a - b;的赋值语句。执行完这条语句后，控制流将转移到基本块4。
基本块3：包含x = b - a;的赋值语句。执行完这条语句后，控制流也将转移到基本块4。
基本块4：包含y = x * 2;的赋值语句。这个基本块是程序的最后一个基本块，执行完这条语句后程序结束或继续执行后续的代码（如果有的话）。

CFG的构建

CFG的构建通常包括以下几个步骤：

词法分析：将源代码拆分成一系列的标记（tokens），如变量名、操作符等。
语法分析：根据语言的语法规则，将标记组合成抽象语法树（Abstract Syntax Tree，AST）。
构建CFG：从AST中提取出基本块（Basic Blocks）和控制流信息，构建出CFG。基本块是一段没有分支（如if语句或switch语句）和循环结构的线性代码序列。

在这个过程中，编译器需要确保CFG的准确性和完整性，以便进行后续的优化和代码生成。

CFG的优化

CFG的优化是编译器优化的一部分，旨在提高生成代码的性能和效率。以下是一些常见的CFG优化技术：

常量折叠和传播：在编译时计算常量表达式的值，并将结果直接用于代码生成。这可以减少运行时的计算量。
无用代码删除：删除无法到达的代码（如死循环后的代码）和未使用的变量、函数等。这可以减小生成代码的大小并提高执行效率。
循环优化：通过循环展开、循环合并等技术优化循环结构，提高循环的执行效率。循环展开可以减少循环控制的开销，而循环合并则可以减少不必要的循环迭代。
函数内联：将小函数或频繁调用的函数的代码直接插入到调用点，以消除函数调用的开销。但需要注意的是，内联可能会增加代码大小，因此需要谨慎使用。
控制流优化：通过重新排列基本块或改变控制流路径来优化CFG。例如，可以将频繁执行的基本块放在一起以提高缓存利用率，或者通过条件语句重排来减少分支预测失败的概率。

重新排列基本块或改变控制流路径是编译器优化中的一种策略，旨在提高程序的执行效率。这些优化通常基于程序的控制流图（CFG）进行。以下是一些基本块重排和控制流路径改变的示例：

基本块重排（Basic Block Reordering）

基本块重排是指在不改变程序逻辑的前提下，重新排列CFG中基本块的顺序，以优化程序的执行性能。例如：

原始CFG顺序：

基本块A -> 基本块B -> 基本块C -> 基本块D

优化后的CFG顺序：

基本块B -> 基本块A -> 基本块D -> 基本块C

在这个例子中，假设基本块B和基本块D更频繁地被执行，而基本块A和基本块C较少执行。通过将它们重新排列，我们可以提高缓存的利用率，因为更频繁执行的基本块现在更紧密地排列在一起。

控制流路径改变

控制流路径改变涉及修改程序中的条件分支或循环结构，以改进程序的执行流程。例如，考虑以下伪代码：

原始代码：

	`if (condition) {`
	`// 基本块A：执行一些操作`
	`} else {`
	`// 基本块B：执行一些其他操作`
	`}`
	`// 基本块C：执行后续操作`

优化后的代码：

	`if (!condition) {`
	`// 基本块B：执行一些其他操作`
	`goto 基本块C; // 直接跳转到后续操作`
	`}`
	`// 基本块A：执行一些操作`
	`// 基本块C：执行后续操作`

在这个例子中，我们改变了条件分支的方向，并在基本块B之后添加了一个直接跳转到基本块C的指令（goto）。这种改变可能是基于分支预测的优化，旨在减少预测失败带来的性能损失。然而，需要注意的是，goto语句在现代高级编程语言中通常不推荐使用，因为它会使控制流变得难以理解和维护。在实际编译器优化中，更复杂的分析和转换技术会被用来改变控制流路径，而不是简单地使用goto。

实际上，编译器优化通常涉及更复杂的分析和转换，这些转换会考虑诸如指令调度、寄存器分配、循环优化（如循环展开、循环合并）以及更高级的程序表示（如静态单赋值形式SSA）等因素。编译器会尝试通过这些优化来减少程序的执行时间、提高缓存利用率、减少分支预测失败等，从而最终提高程序的性能。

分支预测的优化是编译器和处理器设计中的一个重要领域，旨在提高程序执行的性能。分支指令（如if语句或循环结构中的条件跳转）可能会导致处理器的流水线停顿，等待分支结果确定后才能继续执行后续指令。为了减少这种性能损失，现代处理器通常配备分支预测器来预测分支指令的结果。

以下是一些分支预测优化的策略和技术：

静态分支预测：
- 总是预测分支向一个方向跳转（通常是向前或向后）。
- 基于编译器对程序的分析，将更可能的分支方向硬编码到指令中。
动态分支预测：
- 使用历史信息来动态地预测分支的结果。常见的动态分支预测器包括：
  - 饱和计数器：记录分支指令最近的历史跳转方向。
  - 2位饱和计数器：可以记录更强或更弱的分支历史。
  - 相关性分支预测器：考虑分支指令之间的相关性。
- 分支目标缓冲（Branch Target Buffer, BTB）：存储最近访问的分支指令的目标地址，以减少目标地址的查找时间。
高级分支预测技术：
- TAGE（Tagged Geometric History Length）预测器：结合了多种历史长度和索引的预测器，以提高预测准确性。
- 感知器预测器（Perceptron Predictor）：使用机器学习技术（如神经网络）来预测分支结果。
- 基于模式的预测器：识别并预测重复的分支模式。
编译器优化：
- 循环展开：减少循环内的分支数量。
- 分支延迟插入：在分支指令前后插入可以并行执行的指令，以隐藏分支预测延迟。
- 代码重排：重新排列代码以减少分支预测失败的影响，例如将更可能执行的代码路径放在一起。
- 条件移动指令：使用条件移动指令（如CMOV在x86架构中）来避免分支，但这可能会增加代码大小和复杂性。
硬件优化：
- 分支预测器层次结构：结合多种不同类型的预测器来提高整体预测准确性。
- 分支预测器更新策略：优化预测器更新算法以减少误预测带来的性能损失。
- 分支目标预测：不仅预测分支是否跳转，还预测跳转的目标地址。
协作分支预测：
- 在多线程环境中，共享分支预测信息以提高预测准确性。
减少分支：
- 通过算法或数据结构的选择来减少程序中的分支数量，例如使用查找表代替复杂的条件语句。

分支预测的优化对于减少程序执行时间至关重要。当处理器遇到条件分支指令（如if语句）时，它需要决定接下来执行哪一段代码。如果处理器等待实际计算条件的结果，那么流水线可能会有一段时间片闲置不用。分支预测技术允许处理器预测最可能的分支结果，并立即开始执行该分支的代码，从而避免这种延迟。

以下是一个简单的例子来说明分支预测如何减少执行时间：

假设我们有一个简单的程序片段，包含一个if-else语句，如下所示：

	`if (x > y) {`
	`// 分支A：执行一些操作`
	`computeA();`
	`} else {`
	`// 分支B：执行一些其他操作`
	`computeB();`
	`}`
	`// 分支后的代码：无论哪个分支被执行，都会执行这里的代码`
	`continueExecution();`

在没有分支预测的情况下，处理器可能需要等待x > y的结果计算出来后才能决定是执行computeA()还是computeB()。这会导致流水线的停顿，因为处理器不知道接下来应该取哪条指令。

现在，假设处理器有一个分支预测器，并且根据历史信息，它预测x > y的结果为真（即预测分支A将被执行）。基于这个预测，处理器可以立即开始执行computeA()，而不需要等待实际的比较结果。如果预测正确，那么处理器就成功地避免了流水线的停顿，并且提高了执行速度。

然而，如果预测错误（即实际上x <= y），那么处理器将不得不丢弃已经执行的computeA()的结果，并回溯到if-else语句重新执行正确的分支B。这种错误预测会导致性能损失，因为处理器浪费了时间和资源在错误的路径上。但是，如果预测器设计得当，并且程序中的分支行为具有一定的可预测性，那么预测正确的概率会很高，从而总体上提高了性能。

在现代处理器中，分支预测器通常非常复杂，并且使用各种技术来提高预测准确性，包括记录分支历史信息、识别分支模式等。这些技术都是为了最大限度地减少预测错误，并因此减少性能损失。

循环展开（Loop Unrolling）

循环展开是一种通过减少循环迭代次数来增加程序执行速度的优化技术。编译器通过将循环体内的代码复制多次来减少循环控制的开销。每次迭代可以执行更多的操作，这有助于减少循环管理指令的数量，提高指令级并行性，并可能允许编译器进行更多的优化。

例子：

假设有一个简单的循环，用于计算数组元素的总和：

	`int sum = 0;`
	`for (int i = 0; i < N; i++) {`
	`sum += array[i];`
	`}`

编译器可能会选择展开这个循环，尤其是当N是一个编译时已知的常量时。例如，如果N是4，循环展开后可能看起来像这样：

	`int sum = 0;`
	`sum += array[0];`
	`sum += array[1];`
	`sum += array[2];`
	`sum += array[3];`

这里没有了循环控制指令（如比较和跳转），每次迭代也没有了增量操作（i++）。这减少了分支预测错误的可能性，并可能提高了缓存的利用率，因为循环体内的代码和数据现在更紧密地排列在一起。

循环合并（Loop Fusion）

循环合并是一种将两个或多个相邻的循环合并成一个循环的优化技术。如果两个循环迭代相同的索引范围并访问相同的数据集，那么将它们合并成一个循环可以减少循环管理的开销，提高数据局部性，并可能减少缓存未命中的次数。

例子：

考虑以下两个相邻的循环，它们都在处理同一个数组：

	`for (int i = 0; i < N; i++) {`
	`array1[i] = some_function(array1[i]);`
	`}`
	`for (int i = 0; i < N; i++) {`
	`array2[i] = another_function(array1[i], array2[i]);`
	`}`

编译器可能会选择合并这两个循环，以减少迭代次数和提高数据访问的局部性：

	`for (int i = 0; i < N; i++) {`
	`array1[i] = some_function(array1[i]);`
	`array2[i] = another_function(array1[i], array2[i]);`
	`}`

在这个合并后的循环中，array1[i]只被访问和计算一次，然后立即被用于计算array2[i]的值。这减少了数组的访问次数，并可能提高了缓存的利用率，因为array1[i]的值在被计算出来后立即被使用，而不是在下一个循环中再次从内存中读取。编译器在进行这些优化时会考虑多种因素，包括代码的大小、缓存行为、分支预测的准确性以及目标处理器的特性等。因此，并不是所有的循环都适合展开或合并，编译器会根据具体情况做出决策。

循环变形（Loop Transformation）

循环变形是一种通过改变循环的结构或访问模式来优化代码的技术。编译器可以应用多种循环变形技术，如循环交换（Loop Interchange）、循环合并（Loop Fusion）和循环倾斜（Loop Skewing）等。这些技术可以重新排列循环中的迭代顺序或合并多个循环，以减少循环开销、提高数据局部性或增加并行性。

循环交换：改变嵌套循环的顺序，以更好地利用缓存或提高并行性。
循环合并：将多个循环合并成一个循环，以减少循环控制的开销。
循环倾斜：通过改变循环变量的迭代方式来重新排列循环中的计算顺序，以优化数据访问模式或提高并行性。

函数调用图优化（Call Graph Optimization）

LLVM（Low Level Virtual Machine）的Target Information主要是指与特定目标架构相关的信息。这些信息在LLVM的编译和优化过程中起着关键的作用，因为它们允许LLVM理解并生成针对特定硬件平台优化的代码。

Target Information可能包含的内容有：

机器指令集：描述了目标架构支持的指令及其操作数、格式和行为。这些信息对于代码生成和选择最优指令至关重要。
寄存器文件：提供了目标架构中寄存器的名称、数量、大小和用途等信息。LLVM使用这些信息来分配和管理寄存器，以及进行寄存器级别的优化。
调用约定：定义了函数如何接收参数、返回值以及如何在调用过程中保存和恢复寄存器状态。这对于确保函数调用的正确性和效率至关重要。
内存模型：描述了目标架构的内存层次结构、访问规则和一致性模型等。这对于生成高效的内存访问代码和确保内存访问的正确性非常重要。
异常处理机制：如果目标架构支持异常处理，那么Target Information还需要包含与异常处理相关的规则和信息。
其他特定于目标的优化：例如，某些架构可能提供特定的指令或功能，可以用于加速某些常见的计算或操作。这些信息可以包含在Target Information中，以便LLVM能够利用这些优化。

在LLVM中，TargetInstrInfo类是一个重要的接口，它提供了获取机器指令信息的方法。由于机器指令通常是与目标相关的，因此TargetInstrInfo类中的大部分方法都是虚函数，需要由每个目标后端来实现。这些后端可以扩展标准接口，以提供特定于目标的额外信息或功能。

举例说明，假设我们有一个简单的LLVM后端，用于一个虚构的处理器架构“ExampleArch”。在这个架构中，我们有一些特定的寄存器和一套独特的机器指令。这些信息都将被包含在“ExampleArch”的Target Information中。

机器指令集：
对于“ExampleArch”，其机器指令集可能包括加法、减法、乘法等指令。例如，它可能有一个名为“ADD”的指令，用于将两个寄存器的值相加并将结果存储在另一个寄存器中。Target Information将为这个“ADD”指令提供详细信息，如它的操作数数量、操作数的类型（寄存器、内存地址等）、以及指令的编码方式等。
寄存器文件：
“ExampleArch”可能有一组特定的寄存器，如R0、R1、R2等。Target Information将描述这些寄存器的数量、大小（如32位、64位等）以及它们的用途（如通用寄存器、浮点寄存器等）。此外，它还可能提供有关寄存器别名、寄存器组或寄存器类的信息，这些信息对于寄存器分配和溢出处理至关重要。
调用约定：
对于“ExampleArch”，Target Information将定义如何在函数调用中传递参数和返回值。例如，它可能规定前四个整数参数应该通过寄存器R0到R3传递，而额外的参数或大型结构应该通过堆栈传递。此外，它还可能描述如何保存和恢复调用者保存的寄存器，以及在函数返回时如何清理堆栈。

在LLVM中，这些信息通常通过特定的类和方法来表示和访问。例如，TargetInstrInfo类提供了获取机器指令信息的方法，而TargetRegisterInfo类则提供了有关寄存器文件的信息。

函数调用约定（Function Call Convention）通常在编译器、操作系统或编程语言的规范中定义。这些约定描述了函数参数如何传递、哪个寄存器或内存位置用于哪个参数或返回值、以及如何管理调用堆栈等内容。

在不同的编程环境和平台中，函数调用约定的定义和实现可能有所不同。例如，在C语言中，常见的函数调用约定有cdecl、stdcall、fastcall等。这些调用约定主要在Windows平台上使用，并且通常由编译器和链接器来处理。

举例说明 `cdecl` 调用约定：

cdecl（C Declaration Convention）是C语言中最常用的函数调用约定之一。在cdecl调用约定中，参数从右到左依次入栈，由调用者负责清理堆栈。返回值通常通过EAX寄存器传递（在x86架构中）。

下面是一个使用cdecl调用约定的C语言函数示例：

	`#include <stdio.h>`

	`// 声明一个使用cdecl调用约定的函数`
	`int __cdecl add(int a, int b) {`
	`return a + b;`
	`}`

	`int main() {`
	`int result = add(10, 20); // 调用函数`
	`printf("The result is: %d\n", result); // 输出结果`
	`return 0;`
	`}`

在这个例子中，add函数被声明为使用__cdecl调用约定（尽管在大多数C编译器中，如果没有明确指定，cdecl是默认的调用约定，因此__cdecl关键字通常可以省略）。当main函数调用add函数时，它会把参数20和10依次压入堆栈，然后跳转到add函数执行。add函数从堆栈中取出参数，进行计算，然后将结果放入EAX寄存器。最后，控制权返回给main函数，main函数从EAX寄存器中获取返回值。

需要注意的是，在实际的编译器实现中，这些细节通常是透明的，程序员通常不需要直接处理堆栈或寄存器操作，除非他们正在进行底层的系统开发或汇编语言编程。编译器会自动生成符合所选调用约定的代码。

在LLVM中，函数调用约定是在目标架构的描述中定义的，并且通常作为目标ABI（Application Binary Interface）的一部分。每个目标架构（如x86、ARM、AArch64、MIPS等）都有其自己的函数调用约定规则，这些规则描述了参数如何传递、返回值如何返回以及调用者和被调用者各自负责哪些任务。

在LLVM的源代码中，函数调用约定的具体实现细节可以在目标架构的后端代码中找到。每个目标后端都会有一个或多个C++源文件，这些文件实现了与特定架构相关的代码生成和优化逻辑。在这些文件中，你会找到描述函数调用约定的数据结构、枚举和函数。

参数传递规则、返回值处理以及堆栈帧的管理等。这些逻辑通常封装在目标后端的C++类中，如TargetInstrInfo、TargetRegisterInfo和TargetFrameLowering等

函数调用图优化是一种通过分析程序中函数之间的调用关系来优化代码的技术。编译器会构建一个表示函数调用关系的图，并利用这个图来进行一系列优化操作，如内联（Inlining）、尾调用优化（Tail Call Optimization）和函数克隆（Function Cloning）等。这些优化可以减少函数调用的开销，提高代码的执行效率。