c++编译器和连接器介绍

有些人写 C/C++( 以下假定为 C++) 程序,对 unresolved external link 或者 duplicated external simbol 的错误信息不知所措(因为这样的错误信息不能定位到某一行)。或者对语言的一些部分不知道为什么要(或者不要)这样那样设计。了解本文之后,或许会有一些答案。


首先看看我们是如何写一个程序的。如果你在使用某种 IDE Visual Studio Elicpse Dev C++ 等),你可能不会发现程序是如何组织起来的(很多人因此而反对初学者使用 IDE )。因为使用 IDE ,你所做的事情,就是在一个项目里新建一系列的 .cpp .h 文件,编写好之后在菜单里点击“编译”,就万事大吉了。但其实以前,程序员写程序不是这样的。他们首先要打开一个编辑器,像编写文本文件一样的写好代码,然后在命令行下敲

    cc 1.cpp -o 1.o

    cc 2.cpp -o 2.o

    cc 3.cpp -o 3.o

 

这里 cc 代表某个 C/C++ 编译器,后面紧跟着要编译的 cpp 文件,并且以 -o 指定要输出的文件(请原谅我没有使用任何一个流行编译器作为例子)。这样当前目录下就会出现:

     1.o 2.o 3.o


最后,程序员还要键入

    link 1.o 2.o 3.o -o a.out

来生成最终的可执行文件 a.out 。现在的 IDE ,其实也同样遵照着这个步骤,只不过把一切都自动化了。


让我们来分析上面的过程,看看能发现什么。

首先,对源代码进行编译,是对各个 cpp 文件单独进行的。对于每一次编译,如果排除在 cpp 文件里 include 别的 cpp 文件的情况(这是 C++ 代码编写中极其错误的写法),那么编译器仅仅知道当前要编译的那一个 cpp 文件,对其他的 cpp 文件的存在完全不知情。

其次,每个 cpp 文件编译后,产生的 .o 文件,要被一个链接器 (link) 所读入,才能最终生成可执行文件。

好了,有了这些感性认识之后,让我们来看看 C/C++ 程序是如何组织的。

   

首先要知道一些概念:


编译: 编译器对源代码进行编译,是将以文本形式存在的源代码翻译为机器语言形式的目标文件的过程。


编译单元:对于 C++ 来说,每一个 cpp 文件就是一个编译单元。从之前的编译过程的演示可以看出,各个编译单元之间是互相不可知的。


目标文件:由编译所生成的文件,以机器码的形式包含了编译单元里所有的代码和数据,以及一些其他的信息。

   

下面我们具体看看编译的过程。我们跳过语法分析等,直接来到目标文件的生成。假设我们有一个 1.cpp 文件

 int n = 1;

 

void f()

{

    ++n;

}

 

它编译出来的目标文件 1.o 就会有一个区域(假定名称为 2 进制段),包含了以上数据/函数,其中有 n, f ,以文件偏移量的形式给出很可能就是:

    偏移量     内容     长度

    0x000        n              4

    0x004        f              ??

 

注意:这仅仅是猜测,不代表目标文件的真实布局。目标文件的各个数据不一定连续,也不一定按照这个顺序,当然也不一定从 0x000 开始。

现在我们看看从 0x004 开始 f 函数的内容(在 0x86 平台下的猜测):

    0x004 inc DWORD PTR [0x000]

    0x00? ret


注意 n++ 已经被翻译为: inc DWORD PTR [0x000] ,也就是把本单元 0x000 位置上的一个 DWORD(4 字节 ) 1

    

下面如果有另一个 2.cpp ,如下

extern int n;

void g()

 {

    ++n;

}


那么它的目标文件 2.o 2 进制段就应该是

    偏移量     内容     长度

    0x000        g              ??


为什么这里没有 n 的空间(也就是 n 的定义),因为 n 被声明为 extern ,表明 n 的定义在别的编译单元里。别忘了编译的时候是不可能知道别的编译单元的情况的,故编译器不知道 n 究竟在何处,所以这个时候 g 的二进制代码里没有办法填写 inc DWORD PTR [???] 中的???部分。怎么办呢?这个工作就只能交给后来的链接器去处理。为了让链接器知道哪些地方的地址是没有填好的,所以目标文件还要有一个“未解决符号表”,也就是 unresolved symbol table. 同样 , 提供 n 的定义的目标文件 ( 也就是 1.o) 也要提供一个“导出符号表”, export symbol table, 来告诉链接器自己可以提供哪些地址。


让我们理一下思路:现在我们知道,每一个目标文件,除了拥有自己的数据和二进制代码之外,还要至少提供 2 个表:未解决符号表和导出符号表,分别告诉链接器自己需要什么和能够提供什么。下面的问题是,如何在 2 个表之间建立对应关系。这里就有一个新的概念:符号。在 C/C++ 中,每一个变量和函数都有自己的符号。例如变量 n 的符号就是“ n ”。函数的符号要更加复杂,它需要结合函数名及其参数和调用惯例等,得到一个唯一的字符串。 f 的符号可能就是 "_f" (根据不同编译器可以有变化)。


所以, 1.o 的导出符号表就是

    符号     地址

    n            0x000

    _f           0x004

    而未解决符号表为空


     2.o 的导出符号表为

    符号     地址

    _g          0x000

    未解决符号表为

    符号     地址    

    n            0x001   


这里 0x001 为从 0x000 开始的 inc DWORD PTR [???] 的二进制编码中存储 ??? 的起始地址 ( 这里假设 inc 的机器码的第 2 5 字节为要 +1 的绝对地址,需要知道确切情况可查手册 ) 。这个表告诉链接器,在本编译单元 0x001 的位置上有一个地址,该地址值不明,但是具有符号 n


链接的时候,链接器在 2.o 里发现了未解决符号 n ,那么在查找所有编译单元的时候,在 1.o 中发现了导出符号 n ,那么链接器就会将 n 的地址 0x000 填写到 2.o 0x001 的位置上。


“打住”,可能你就会跳出来指责我了。如果这样做得话,岂不是 g 的内容就会变成 inc DWORD PTR [0x000] ,按照之前的理解,这是将本单元的 0x000 地址的 4 字节加 1 ,而不是将 1.o 的对应位置加 1 。是的,因为每个编译单元的地址都是从 0 开始的,所以最终拼接起来的时候地址会重复。所以链接器会在拼接的时候对各个单元的地址进行调整。这个例子中,假设 2.o 0x00000000 地址被定位在可执行文件的 0x00001000 上,而 1.o 0x00000000 地址被定位在可执行文件的 0x00002000 上,那么实际上对链接器来说, 1.o 的导出符号表其实


    符号     地址

    n           0x000 + 0x2000

    _f         0x004 + 0x2000

    而未解决符号表为空


    2.o 的导出符号表为

    符号     地址

    _g         0x000 + 0x1000

    未解决符号表为

    符号     地址             

    n            0x001 + 0x1000


所以最终 g 的代码会变为 inc DWORD PTR [0x000 + 0x2000]


最后还有一个漏洞,既然最后 n 的地址变为 0x2000 了,那么以前 f 的代码 inc DWORD PTR [0x000] 就是错误的了。所以目标文件为此还要提供一个表,叫做地址重定向表 address redirect table


    对于 1.o 来说,它的重定向表为

    地址

    0x005


    这个表不需要符号,当链接器处理这个表的时候,发现地址为 0x005 的位置上有一个地址需要重定向,那么直接在以 0x005 开始的 4 个字节上加上 0x2000 就可以了。


让我们总结一下:编译器把一个 cpp 编译为目标文件的时候,除了要在目标文件里写入 cpp 里包含的数据和代码,还要至少提供 3 个表:未解决符号表,导出符号表和地址重定向表。


未解决符号表提供了所有在该编译单元里引用但是定义并不在本编译单元里的符号及其出现的地址。


导出符号表提供了本编译单元具有定义,并且愿意提供给其他编译单元使用的符号及其地址。

地址重定向表提供了本编译单元所有对自身地址的引用的记录。


链接器进行链接的时候,首先决定各个目标文件在最终可执行文件里的位置。然后访问所有目标文件的地址重定向表,对其中记录的地址进行重定向(即加上该编译单元实际在可执行文件里的起始地址)。然后遍历所有目标文件的未解决符号表,并且在所有的导出符号表里查找匹配的符号,并在未解决符号表中所记录的位置上填写实际的地址(也要加上拥有该符号定义的编译单元实际在可执行文件里的起始地址)。最后把所有的目标文件的内容写在各自的位置上,再作一些别的工作,一个可执行文件就出炉了。


    最终 link 1.o 2.o .... 所生成的可执行文件大概是

    0x00000000  ???? (别的一些信息)

    ....

    0x00001000  inc DWORD PTR [0x00002000]              // 这里是 2.o 的开始,也就是 g 的定义

    0x00001005  ret                                                               // 假设 inc 5 个字节,这里是 g 的结尾

    ....

    0x00002000  0x00000001                                                // 这里是 1.o 的开始,也是 n 的定义(初始化为 1

    0x00002004  inc DWORD PTR [0x00002000]            // 这里是 f 的开始

    0x00002009  ret                                                             // 假设 inc 5 个字节,这里是 f 的结尾

    ...

    ...

    实际链接的时候更为复杂,因为实际的目标文件里把数据/代码分为好几个区,重定向等要按区进行,但原理是一样的。

   

现在我们可以来看看几个经典的链接错误了:

    unresolved external link..

这个很显然,是链接器发现一个未解决符号,但是在导出符号表里没有找到对应的項。


  解决方案么,当然就是在某个编译单元里提供这个符号的定义就行了。(注意,这个符号可以是一个变量,也可以是一个函数),也可以看看是不是有什么该链接的文件没有链接

    duplicated external simbols...

这个则是导出符号表里出现了重复项,因此链接器无法确定应该使用哪一个。这可能是使用了重复的名称,也可能有别的原因。

 

 

我们再来看看 C/C++ 语言里针对这一些而提供的特性:

 extern: 这是告诉编译器,这个符号在别的编译单元里定义,也就是要把这个符号放到未解决符号表里去。(外部链接)

   

static: 如果该关键字位于全局函数或者变量的声明的前面,表明该编译单元不导出这个函数/变量的符号。因此无法在别的编译单元里使用。(内部链接)。如果是 static 局部变量,则该变量的存储方式和全局变量一样,但是仍然不导出符号。

   

默认链接属性:对于函数和变量,模认外部链接,对于 const 变量,默认内部链接。(可以通过添加 extern static 改变链接属性)

 

外部链接的利弊:外部链接的符号,可以在整个程序范围内使用(因为导出了符号)。但是同时要求其他的编译单元不能导出相同的符号(不然就是 duplicated external simbols)

 

内部链接的利弊:内部链接的符号,不能在别的编译单元内使用。但是不同的编译单元可以拥有同样名称的内部链接符号。

 

为什么头文件里一般只可以有声明不能有定义:头文件可以被多个编译单元包含,如果头文件里有定义,那么每个包含这个头文件的编译单元就都会对同一个符号进行定义,如果该符号为外部链接,则会导致 duplicated external simbols 。因此如果头文件里要定义,必须保证定义的符号只能具有内部链接。

 

为什么常量默认为内部链接,而变量不是:

这就是为了能够在头文件里如 const int n = 0 这样的定义常量。由于常量是只读的,因此即使每个编译单元都拥有一份定义也没有关系。如果一个定义于头文件里的变量拥有内部链接,那么如果出现多个编译单元都定义该变量,则其中一个编译单元对该变量进行修改,不会影响其他单元的同一变量,会产生意想不到的后果。

 

为什么函数默认是外部链接:

虽然函数是只读的,但是和变量不同,函数在代码编写的时候非常容易变化,如果函数默认具有内部链接,则人们会倾向于把函数定义在头文件里,那么一旦函数被修改,所有包含了该头文件的编译单元都要被重新编译。另外,函数里定义的静态局部变量也将被定义在头文件里。

 

为什么类的静态变量不可以就地初始化:所谓就地初始化就是类似于这样的情况:

        class A

        {

            static char msg[] = "aha";

        };

不允许这样做得原因是,由于 class 的声明通常是在头文件里,如果允许这样做,其实就相当于在头文件里定义了一个非 const 变量。

 

C++ 里,头文件定义一个 const 对象会怎么样:

  一般不会怎么样,这个和 C 里的在头文件里定义 const int 一样,每一个包含了这个头文件的编译单元都会定义这个对象。但由于该对象是 const 的,所以没什么影响。但是:有 2 种情况可能破坏这个局面:

 1 。如果涉及到对这个 const 对象取地址并且依赖于这个地址的唯一性,那么在不同的编译单元里,取到的地址可以不同。(但一般很少这么做)

2 。如果这个对象具有 mutable 的变量,某个编译单元对其进行修改,则同样不会影响到别的编译单元。

 

为什么类的静态常量也不可以就地初始化:

因为这相当于在头文件里定义了 const 对象。作为例外, int/char 等可以进行就地初始化,是因为这些变量可以直接被优化为立即数,就和宏一样。

 

内联函数: C++ 里的内联函数由于类似于一个宏,因此不存在链接属性问题。

 

为什么公共使用的内联函数要定义于头文件里:

因为编译时编译单元之间互相不知道,如果内联函数被定义于 .cpp 文件中,编译其他使用该函数的编译单元的时候没有办法找到函数的定义,因此无法对函数进行展开。所以说如果内联函数定义于 .cpp 文件里,那么就只有这个 cpp 文件可以是用这个函数。

 

头文件里内联函数被拒绝会怎样:

如果定义于头文件里的内联函数被拒绝,那么编译器会自动在每个包含了该头文件的编译单元里定义这个函数并且不导出符号。

 

如果被拒绝的内联函数里定义了静态局部变量,这个变量会被定义于何处:

早期的编译器会在每个编译单元里定义一个,并因此产生错误的结果,较新的编译器会解决这个问题,手段未知。

 

为什么 export 关键字没人实现: export 要求编译器跨编译单元查找函数定义,使得编译器实现非常困难。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值