现有一个C程序,当我们用Unix命令行编译这些代码时,GCC(GNU Compiler Collection,GNU编译器套件)编译器会将源代码转换为可执行文件,过程如下:
1. 预处理:C预处理器扩展代码,插入所有用#include命令指定的代码,并扩展所有用#define声明指定的宏;
2. 编译:编译器产生源文件的汇编代码(机器代码的文本表示,给出程序中的每一条指令,人可读);
3. 汇编:汇编器会将汇编代码转化生成二进制目标代码文件(机器代码的另一种形式,包含所有二进制表示);
4. 链接:链接器将目标代码文件与实现库函数的代码合并,并最终产生可执行代码文件(可执行代码时机器代码的第二种形式,也就是处理器执行的代码格式);
注:
- 汇编代码:汇编代码表示非常接近于机器代码,是机器代码的文本格式表示,程序执行指令;
- 机器代码:处理器执行机器代码,二进制文件;
程序内存包含:程序的可执行代码,用户分配的内存块(malloc)和操作系统的信息(用来管理过程调用和返回的运行时栈),因为程序内存是用虚拟地址来寻址的,在特定时刻,只有有限的一部分虚拟地址是合法的。例如:x86-64(处理器机器语言)的虚拟地址是由64位的字来表示,在目前的实现中,这些地址的高16位必须被设置为0,较为典型的程序只会访问几(千)兆字节的数据,操作系统负责管理虚拟地址空间,将虚拟地址翻译为实际处理器内存中的物理地址。