- 头文件展开:将程序中所用的头文件用其内容来替换头文件名。
- 宏替换:扫描程序中的符号,将其 替换成宏所定义的内容。
- 去注释:去掉程序中的注释。
- 条件编译:筛选掉条件编译中的伪命令。
- 头文件展开(1-864 行)
- 宏定义去除,同时程序中的 a[M] 变成 a[5]
- 源文件中的注释 //查看预处理结果 清除
- 条件编译中的伪命令被去除
- 分析词法分析和语法,在确认所有的指令都符合语法规则之后,将其翻译成等价的中间代码表示或汇编代码。
- 代码优化:主要是删除公共表达式、循环优化(代码外提、强度削弱、变换循环控制条件、已知量的合并等)、复写传播以及无用赋值的删除,等等。
- 目标代码优化:最主要的是考虑是如何充分利用机器的各个硬件寄存器存放的有关变量的值,以减少对于内存的访问次数。另外根据机器硬件执行指令的特点(如流水线、RISC、CISC、VLIW等)而对指令进行一些调整使目标代码比较短,执行的效率比较高。
- 代码段:该段中所包含的主要是程序的指令,一般是可读和可执行的,但一般却不可写。
- 数据段:主要存放程序中要用到的各种全局变量或静态的数据,该段都是可读,可写,可执行的。
- 可重定位文件
- 共享的目标文件
- 可执行文件
以上便是 C 代码到生成可执行文件中间经历的主要步骤,可是这只是一个框架,具体是如何操作的呢?变量是如何调用的?函数是如何调用的?函数中的形参和实参是如何转变的?以及指针又是如何操作的呢?这些都需要我们一一去剖析,去探索,那我们就后面再见了。
原文链接:https://blog.csdn.net/wenfei11471/article/details/79587539
程序的基本流程如图:
1. 预处理
预处理相当于根据预处理指令组装新的C/C++程序。经过预处理,会产生一个没有宏定义,没有条件编译指令,没有特殊符号的输出文件,这个文件的含义同原本的文件无异,只是内容上有所不同。
读取C/C++源程序,对其中的伪指令(以#开头的指令)进行处理
①将所有的“#define”删除,并且展开所有的宏定义
②处理所有的条件编译指令,如:“#if”、“#ifdef”、“#elif”、“#else”、“endif”等。这些伪指令的引入使得程序员可以通过定义不同的宏来决定编译程序对哪些代码进行处理。预编译程序将根据有关的文件,将那些不必要的代码过滤掉。
③处理“#include”预编译指令,将被包含的文件插入到该预编译指令的位置。
(注意:这个过程可能是递归进行的,也就是说被包含的文件可能还包含其他文件)
删除所有的注释
添加行号和文件名标识。
以便于编译时编译器产生调试用的行号信息及用于编译时产生的编译错误或警告时能够显示行号
保留所有的#pragma编译器指令
2. 编译
将预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后,产生相应的汇编代码文件。
3. 汇编
将编译完的汇编代码文件翻译成机器指令,并生成可重定位目标程序的.o文件,该文件为二进制文件,字节编码是机器指令。
汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎都对应一条机器指令。所以汇编器的汇编过程相对于编译器来讲比较简单,它没有复杂的语法,也没有语义,也不需要做指令优化,只是根据汇编指令和机器指令的对照表一一翻译即可。
4. 链接
通过链接器将一个个目标文件(或许还会有库文件)链接在一起生成一个完整的可执行程序。
由汇编程序生成的目标文件并不能立即就被执行,其中可能还有许多没有解决的问题。
例如,某个源文件中的函数可能引用了另一个源文件中定义的某个符号(如变量或者函数调用等);在程序中可能调用了某个库文件中的函数,等等。所有的这些问题,都需要经链接程序的处理方能得以解决。
链接程序的主要工作就是将有关的目标文件彼此相连接,也就是将在一个文件中引用的符号同该符号在另外一个文件中的定义连接起来,使得所有的这些目标文件成为一个能够被操作系统装入执行的统一整体。
至此,大致经过这几个步骤,一个完整的可执行程序产生了。