源程序,是指未经编译的,按照一定的程序设计语言规范书写的,人类可读的文本文件,我们通常理解为源程序就是我们所写好的代码。
可执行程序,我们常说的.exe程序,可以执行程序,完成计算机功能。在C语言中,.c文件就是所谓的源文件,接下来,我们剖析一下,源程序到可执行程序的过程。在这个过程中,会发生如下的变化:
.c文件生成.obj文件的过程,我们称为编译,.obj文件生成到.exe文件的过程,我们称为链接。
在这里首先生成的.obj文件就是一个是程序编译生成的二进制文件,再后来,当.exe文件生成以后.obj文件就会被删除。
事实上,.c文件生成.exe文件的过程总共是经历了预处理,编译,汇编,链接,这四个过程。
- 1.预编译
其实预编译就是我们所说的预处理。
在过程中,第一个进行的是预编译的过程。
为了接下来能够解释的更加清楚,我们将用linux平台下的gcc编译器解释。
在这里我们先书写一个非常简单的程序来介绍:
首先我们写了这样一个程序
#include<stdio.h>
int main()
{
printf("hello");
return 1;
}
我们将这个程序写到test.c中去,这里我们可以直接编译得到:
接下来,我们一步步详细讨论下其中发生的:
第一步发生的是预编译,在这我们使用-E指令,使用这个指令会使程序只进行到预编译指令。经过预编译指令后的会生成一个.i文件,所以我们接下来就把预编译的情况放到test.i文件中。
在预编译的过程中,主要处理源代码中的预处理指令,引入头文件,去除注释,处理所有的条件编译指令,宏的替换,添加行号,保留所有的编译器指令。
这就是预编译后得到的结果
所以当进行预编译以后的文件中将不再存在宏,所有的宏都已经被替代。当我们我们想要判断宏是否正确或者头文件包含是否正确的时候,我们也可以通过预编译来查看。
- 2.编译
在预处理结束后,我们所要进行的就是编译。编译过程所进行的是对预处理后的文件进行语法分析,词法分析,语义分析,符号汇总,然后生成汇编代码。
在这里我们使用linux的-s命令,这可以得到汇编输出文件test.s
打开以后的结果是:
从结果我们可以知道,得到的是汇编代码。
- 3.汇编
这里的汇编所说的是一个过程,将汇编代码转成二进制文件,二进制文件就可以让机器来读取。每一条汇编语句都会产生一句机器语言
这里采用的 -O指令
在这最终会生成一个重定位目标文件 .o文件,这就好比windows下的.obj文件。这里生成的目标文件里面就是二进制文件。另外,在这需要注意的是,会形成符号表,给这些符号会分配虚拟地址。
- 4.链接
链接,其实就是将二进制文件链接称为一个可执行的指令。
链接所完成的任务是合并段表,然后把符号表合并并且对符号表进行重定位。
所谓合并段表,源代码编译生成的a.out会包含很多段,数据段文本段bss段等等,这些段是合并出来的,在编译过程中划分出来出来的,不同的数据会对应到不同的段中,在.o文件中其实已经发生了分段。
符号表合并和重定位说的是最后只生成了一个符号表,这个符号表是由前面汇编形成的多个符号表进行合并。在这里不在同一个符号表的符号,要对他们进行重定位。