目录
在我们日常编写代码时,编译运行通过在集成开发环境IDE中一气呵成,其实上述过程大概可以分为4个步骤:预处理、编译、汇编和链接。这些过程都被强大的集成开发环境给完成了。
1.翻译环境和运行环境
在ANSI C的任何一种实现中,存在着两个不同环境:
- 第一种环境是翻译环境,在这种环境中源代码被转换成可执行的机器指令(二进制).
- 第二种是执行环境,它用来执行代码.
2.翻译环境
翻译环境是由编译和链接两大过程组成的,而编译又可以分为:预处理(预编译)、编译、汇编三个过程。
在编译这个过程中.c文件经过编译器的一系列处理生成了.obj文件(在Linux中他生成的是.o文件)。然后在链接过程中和链接库(是运行时的库或者第三方库)经过链接器的处理最终生成可执行程序。
如果将编译器展开为三个过程,则流程如下图所示:
2.1预处理(预编译)
在预处理阶段,源码文件(.c文件)和相关头文件(.h文件)被预编译器编译成.i文件。对于C++程序来说,他的源码文件扩展名可能是.cpp或.cxx,头文件扩展名是.hpp,而编译后的文件扩展名是.ii。
在gcc环境下想观察一下,对test.c文件处理后的.i文件,命令如下:
gcc -E test.c -o test.i
对于源文件中#开头的预编译指令,处理规则如下:
- 经所有的#define删除,并展开所有的宏定义。
- 处理所有的条件编译指令,如#if、#ifdef、#elif、#else、#end if。
- 处理所有的#include预编译指令,将包含头文件的内容插入到该位置,这个过程是递归进行的,也就是说被包含头文件也可能包含其他头文件。
- 删除所有的注释,如"//"和"/* */"。
- 添加行号和文件标识,方便后续编译器生成调试信息。
- 保留所有#pragma指令,编译器后续要使用。
经过预编译后的.i文件不包含任何宏定义,因为所有的宏已经被展开,并且包含的文件也已经被插入到.i文件中。因此,要判断宏定义是否正确或者头文件是否正确时,可以查看与编译后的文件来确定。
2.2编译
编译的过程主要就是对预处理后的文件进行一系列的:词法分析、语法分析、语义分析及优化,生成相对应的汇编文件
假设有以下代码,在编译过程中,会发生什么呢?
array[index] = (index+4)*(2+6);
2.2.1词法分析
记号 | 类型 |
array | 标识符 |
[ | 左方括号 |
index | 标识符 |
] | 右方括号 |
= | 赋值 |
( | 左圆括号 |
index | 标识符 |
+ | 加号 |
4 | 数字 |
) | 右圆括号 |
* | 乘号 |
( | 左圆括号 |
2 | 数字 |
+ | 加号 |
6 | 数字 |
) | 右圆括号 |
词法分析产生的记号可以分为以下几类:关键字、标识符字面量(包含数字、字符串等)和特殊符号(如加号、等号等)。在识别记号的同时扫描器也完成了其他工作:如将标识符放到符号表,将数字、字符串常量放到文字表,以备后续使步骤用。
2.2.2语法分析
接下来语法分析器,将对扫描产生的记号进行语法分析,从而产生语法树(一表达式为节点的数)。整个分析过程采用了上下文无关语法的分析手段。
2.2.3语义分析
接下来进行的就是语义分析 ,由语义分析器来完成。它仅仅是完成了对表达式的语法层面的分析,但他并不了解这个语句是否真正有意义。编译器所能分析的语义是静态语义,所谓静态语义是指在编译期间可以确定的语义。静态语义分析通常包括声明和类型的匹配,类型的转换等。这个阶段会报告错误的语法信息。
2.3汇编
汇编器是将汇编代码转变成机器可以执行的指令,每一个汇编语句几乎都对应一条机器指令。所以汇编器的汇编过程相对于编译器来讲比较简单,它没有复杂的语法,也没有语义,也不需要做指令优化,只是根据汇编指令和机器指令的对照表一一翻译就可以了,“汇编”这个名字也来源于此。上面的汇编过程我们可以调用汇编器as来完成:
$as hello.s -o hello.o
或者:
$gcc -c hello.s -o hello.o
或者使用gcc命令从C源代码文件开始,经过预编译、编译和汇编直接输出目标文件。
$gcc -c hello.c -o hello.o
2.4链接
链接是一个复杂的过程,它需要将一堆文件链接在一起才能生成可执行程序。他解决的是一个项目中多文件、多模块之间相互调用的问题。链接的过程主要包括:地址和空间的分配、符号决议和重定位等这些步骤。
3.运行环境
1.程序必须载入内存中。在有操作系统的环境中:一般这个由操作系统完成。在独立的环境中,程序的载入必须由手工安排,也可能是通过可执行代码置入只读内存来完成。
2.程序的执行便开始。接着便调用main函数。
3.开始执行程序代码。这个时候程序将使用一个运行时堆栈(stack),存储函数的局部变量和返回地址。程序同时也可以使用静态(static)内存,存储于静态内存中的变量在程序的整个执行过程一直保留他们的值。
4.终止程序。正常终止main函数;也有可能是意外终止。