C++编译器与链接器工作原理

最新推荐文章于 2023-06-26 17:51:45 发布

lanhaics

最新推荐文章于 2023-06-26 17:51:45 发布

阅读量964

点赞数 1

分类专栏： C/C++ 文章标签：编译原理 c++ C++链接器

C/C++ 专栏收录该内容

18 篇文章 0 订阅

订阅专栏

首先,我们从编译原理开始

一、编译原理概念:

1、编译：编译器对源文件进行编译，就是把源文件中的文本形式存在的源代码翻译成机器语言形式的目标文件的过程，在这个过程中，编译器会进行一系列的语法检查。如果编译通过，就会把对应的CPP转换成OBJ文件。

2、编译单元：根据C++标准，每一个CPP文件就是一个编译单元。每个编译单元之间是互相独立互相不可知。

3、目标文件：由编译所生成的文件，以机器码的形式包含了编译单元里所有的代码和数据，还有一些其他信息，如未解决符号表，导出符号表和地址重定向表等。目标文件是以二进制的形式存在。

根据C++标准，一个编译单元(Translation Unit)是一个.cpp文件以及使用include包含的所有.h文件，.h文件里面的代码将都会扩展到它的.cpp文件中，然后编译器编译该.cpp文件为一个.obj文件，后者拥有PE(Protable Executable，即Windows可执行文件)文件格式，并且本身包含的就是二进制代码，但是不一定能执行，因为并不能保证其中一定有main()函数。当编译器将一个工程里的所有.cpp文件以分离的方式编译完成后，再以连接器链接称为一个.exe或.dll文件。

二、编译器分析

下面通过两个例子来分析编译器的工作过程:

eg A:

我们跳过语法分析，直接来到目标文件的生成，假设我们有一个A.cpp文件，如下定义：

int n =1;

voidFunA()

{

++n;

}

它编译出来的目标文件A.obj就会有一个区域（或者说是段），包含以上的数据和函数，其中就有n、FunA，以文件偏移量形式给出可能就是下面这种情况：

偏移量内容长度

0x0000 n 4

0x0004 FunA ??

注意：这只是说明，与实际目标文件的布局可能不一样，??表示长度未知，目标文件的各个数据可能不是连续的，也不一定是从0x0000开始。

FunA函数的内容可能如下：

0x0004inc DWORD PTR[0x0000]

0x00??ret

这时++n已经被翻译成inc DWORD PTR[0x0000]，也就是说把本单元0x0000位置的一个DWORD（4字节）加1。

eg B:

有另外一个B.cpp文件，定义如下：

externint n;

voidFunB()

{

++n;

}

它对应的B.obj的二进制应该是：

偏移量内容长度

0x0000 FunB ??

这里为什么没有n的空间呢，因为n被声明为extern，这个extern关键字就是告诉编译器n已经在别的编译单元里定义了，在这个单元里就不要定义了。由于编译单元之间是互不相关的，所以编译器就不知道n究竟在哪里，所以在函数FunB就没有办法生成n的地址，那么函数FunB中就是这样的：

0x0000inc DWORD PTR[????]

0x00??ret

那怎么办呢？这个工作就只能由链接器来完成了。

为了能让链接器知道哪些地方的地址没有填好（也就是还????），那么目标文件中就要有一个表来告诉链接器，这个表就是“未解决符号表”，也就是unresolvedsymbol table。同样，提供n的目标文件也要提供一个“导出符号表”也就是exprotsymbol table，来告诉链接器自己可以提供哪些地址。

到现在为止，我们已经知道，一个目标文件不仅要提供数据和二进制代码外，还至少要提供两个表：未解决符号表和导出符号表，来告诉连接器自己需要什么和自己能提供什么。

那么这两个表示怎么建立对应关系的呢？这里就有一个全新的概念：符号。在C/C++中，每一个变量及函数都会有自己的符号，如变量n的符号就是n,函数的符号就会更加复杂，假设FunA()的符号就是_FunA()根据编译器不同而不同。

所以，

A.obj的导出符号表为

符号地址

n 0x0000

_FunA 0x0004

未解决符号为空（因为他没有引用别的编译单元里的东西）。

B.obj的导出符号表为

符号地址

_FunB 0x0000

未解决符号表为

符号地址

n 0x0001

这个表告诉链接器，在本编译单元0x0001位置有一个地址，该地址不明，但符号是n。

在链接的时候，链接在B.obj中发现了未解决符号，就会在所有的编译单元中的导出符号表去查找与这个未解决符号相匹配的符号名，如果找到，就把这个符号的地址填到B.obj的未解决符号的地址处。如果没有找到，就会报链接错误。在此例中，在A.obj中会找到符号n，就会把n的地址填到B.obj的0x0001处。

但是，这里还会有一个问题，如果是这样的话，B.obj的函数FunB的内容就会变成inc DWORDPTR[0x000]（因为n在A.obj中的地址是0x0000）,由于每个编译单元的地址都是从0x0000开始，那么最终多个目标文件链接时就会导致地址重复。所以链接器在链接时就会对每个目标文件的地址进行调整。在这个例子中，假如B.obj的0x0000被定位到可执行文件的0x00001000上，而A.obj的0x0000被定位到可执行文件的0x00002000上，那么实现上对链接器来说，A.obj的导出符号地地址都会加上0x00002000，B.obj所有的符号地址也会加上0x00001000。这样就可以保证地址不会重复。

既然n的地址会加上0x00002000，那么FunA中的inc DWORDPTR[0x0000]就是错误的，所以目标文件还要提供一个表，叫地址重定向表，address redirect table。

总结一下：

目标文件至少要提供三个表：未解决符号表，导出符号表和地址重定向表。

为解决符号表：列出了本单元里有引号但是不在本单元定义的符号以及出现的地址。

符号导出表：提供了本编辑单元具有定义，并且可以提供给其他编译单元使用的符号及其在本单元中的地址。

地址重定向表：提供了本编译单元所有对自身地址的引用记录。

链接器的工作顺序:

当连接器进行链接的时候，

(a)首先决定各个文件在最终可执行文件里的位置。

(b)、然后访问所在目标文件的地址重定义表，对其记录的地址进行重定向（加上一个偏移量，即该编译单元在可执行文件上的起始地址）

(c)、然后遍历所有目标文件的未解决符号表，并且在所有的导出符号表里查找匹配的符号，并在未解决符号表中所记录的位置上填写实现地址

(d)、最后把所有的目标内容卸载各自的位置上，再做一些其他的工作，就生成一个可执行文件。