上一篇《 Linux C++ 开发2 - 编写、编译、执行第一个程序》我们编写了一个Hello world
程序,并在Linux下完成了正常的编译和执行。
上一篇中我们用g++ ./demo01.cpp
这个指令就轻松将我们的demo01.cpp
源代码编译成了二进制程序,那你知道这个指令内部经历了哪些过程吗?
1. C/C++的编译过程
先说结论:C/C++的编译过程包括 预处理、编译、汇编、链接 四个关键的步骤,整个编译的处理流程如下图所示:
更粗粒度的划分,我们又把 预处理、编译、汇编 称为编译过程,就是把源代码(.c/.cpp/.cc)生成目标代码;链接的动作单独一个过程,称为链接过程。
1.1. 预处理
预处理也称为预编译,由预处理器(cpp)执行,预处理阶段主要处理一些预处理指令,比如文件包含、宏定义、条件编译等。
- 文件包含,也就是将所有通过
#include
包含的头文件替换成真正的内容。 - 宏定义,预处理时需要把所有的宏定义替换成真正的内容。
- 条件编译,也就是通过如
#ifdef, #ifndef, #else, #elif, #endif
等指令定义的条件编译,预处理会把不符合条件的代码删除,只保留符合条件的代码。
1.2. 编译
编译阶段要做的工作就是通过词法分析、语法分析和语义分析,在确认所有的源代码都符合语法规则之后,将其翻译成等价的汇编代码(中间代码),即.s
或.asm
文件。这个过程是整个程序构建的核心部分,也是最复杂的部分之一。
更多关于汇编语言的介绍参加《 汇编语言1 - 什么是汇编语言?》。
除此之外,编译器还会在这个阶段进行代码优化。优化主要包含两大部分:一部分是对源代码本身逻辑的优化,如删除公共表达式、删除无用赋值、循环优化、复写传播等。另一部分是根据目标设备的硬件结构,对执行指令进行优化,如寄存器分配、指令调度、指令合并等。
1.3. 汇编
1.3.1. 汇编过程
汇编的过程就是通过不同平台的汇编器(如:Linux的AS、Windows的MASM)将汇编代码翻译成机器能识别的机器码,即生成目标文件(Linux下是.o
,windows下是.obj
)。
1.3.2. 目标文件
目标文件(Object File) 是源代码经过预处理、编译、汇编后生成的中间文件,Linux下的目标文件(.o
)的文件格式是ELF(Executable and Linkable Format),它包含了机器代码、数据、符号表和重定位信息等。
我们来看一个.o
文件的文件头,
行:
- .text: 代码段(存放函数的二进制机器指令)
- .data: 数据段(存已初始化的局部/全局静态变量、未初始化的全局静态变量)
- .bss: bss段(声明未初始化变量所占大小)
- .rodata: 只读数据段(存放 " " 引住的只读字符串)
- .comment: 注释信息段
- .node.GUN-stack: 堆栈提示段
列:
- Size: 段的长度
- File Off: 段的所在位置(即距离文件头的偏移位置)
段的属性:
- CONTENTS: 表示该段在文件中存在
- ALLOC: 表示只分配了大小,但没有存内容
1.4. 链接
程序的链接阶段可分为两个步骤:
- 第一步:由于每个.o文件都有都有自己的代码段、bss段,堆,栈等,所以链接器首先将多个.o 文件相应的段进行合并,建立映射关系及合并符号表。进行符号解析,符号解析完成后就是给符号分配虚拟地址。
- 第二步:将分配好的虚拟地址与符号表中定义的符号一一对应起来,使其成为正确的地址,使代码段的指令可以根据符号的地址执行相应的操作,最后由链接器生成可执行文件。
2. 编译过程示例
2.1. 源代码
我们还是以《 Linux C++ 开发2 - 编写、编译、执行第一个程序》中使用的源代码为例进行讲解。
demo01.cpp:
2.2. 逐步编译程序
2.2.1. 编译指令
我们分成 预处理、编译、汇编、链接 四步来逐步编译程序。
2.2.2. 链接报错问题
执行上面第4步的链接命令时,可能会出现如下报错:
这是因为:Linux系统下,链接目标文件生成可执行文件的过程比我们想象的要复杂许多,生成一个C可执行文件,需要依赖很多系统库和相关的目标文件,比如C的libc++库。那怎么解决这个问题呢?
方法一: 直接用g++的指令
方法二: 添加复杂参数
既然g++
可以直接编译,我们何不看看g++
内部到底是怎么编译的, 执行如下代码。
我们看到/usr/libexec/gcc/x86_64-linux-gnu/13/collect2
开头的这一行,后面跟了一堆复杂的参数,这个就是链接时需要用到的参数。
collect2是什么?实际上collect2
是对ld
的封装,g++
调用链接器collect2
来完成链接工作,最终还是要调用到ld
。
我们可以尝试将collect2
替换成ld
,然后跟上后面的参数,执行如下的执行:
可以看到链接成功,且链接的结果demo01.out
可以被正常执行。
2.3. 单步编译
我们看到demo01.out
和a.out
的md5值是一样的,说明:
- 直接编译得到的可执行文件(
a.out
)和经过预处理、编译、汇编、链接后得到的可执行文件(demo01.out
)是一样的。 - C++的编译内部经过了预处理、编译、汇编、链接等过程。
3. gcc/g++与gpp、as、ld的关系
3.1. 关系图
gcc/g++
对 预处理、编译、汇编、链接 等过程进行了捆绑,使用户只需要使用一次命令就可以把编译工作完成,这样极大的简化了编译的动作。gcc/g++
相当于一个总控程序,内部组合了cpp
、as
、ld
等工具,并通过参数传递的方式完成编译工作。
编译步骤 | 指令一 | 指令二 |
---|---|---|
预处理 | cpp | g++ -E |
编译 | g++ -S | g++ -S |
汇编 | as | g++ -c |
链接 | ld | g++ |
3.2. 示例演示
可以看到,编译的结构与" 2.2. 逐步编译程序"完全一样。
4. 参考文档
https://blog.csdn.net/qq_40765537/article/details/105940800 https://www.cnblogs.com/mickole/articles/3659112.html https://blog.csdn.net/gt1025814447/article/details/80442673
大家好,我是陌尘。
IT从业10年+, 北漂过也深漂过,目前暂定居于杭州,未来不知还会飘向何方。
搞了8年C++,也干过2年前端;用Python写过书,也玩过一点PHP,未来还会折腾更多东西,不死不休。
感谢大家的关注,期待与你一起成长。
【SunLogging】
扫码二维码,关注微信公众号,阅读更多精彩内容