CSapp

ruanjianxueyuan113

已于 2023-03-28 01:28:12 修改

阅读量456

点赞数

分类专栏： C++ 文章标签：服务器

于 2023-02-06 23:38:24 首次发布

本文链接：https://blog.csdn.net/ruanjianxueyuan113/article/details/128909969

版权

C++ 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

csapp

第7章链接

链接在以下三个阶段都能执行
编译时：源代码被翻译成机器代码
加载时：程序被机器加载到内存并执行
运行时：应用程序来执行
链接器使得分离编译成为可能

7.1 编译器驱动程序

文件的转换方式
.c文件经过预处理器处理，得到.i文件
.i文件经过编译器处理，得到.s文件
.s文件经过汇编器出来，得到.o文件(可重定位目标文件，relocatable object file)
多个.o文件经过链接器程序进行链接，得到可执行目标文件(executable obect file)

目标文件
目标文件有三种，都包含了二进制代码和数据

可重定位目标文件：可以在编译时和其他可重定位目标文件合并起来，创建一个可执行目标文件
可执行目标文件：可以直接被复制到内存，然后执行
共享目标文件：一种特殊类型的可重定位目标文件，可以在加载或运行的时候被动态地加载进内存并连接

static相关
https://blog.csdn.net/chidanzhu4790/article/details/100851834 静态成员变量一定要初始化吗？
https://blog.csdn.net/ANobility/article/details/127535441 C/C++ 中static的作用

7.4 可重定位目标文件

在这里插入图片描述
上图是ELF可重定位文件的格式。包含三部分：ELF头，普通的节，节头部表
节头部表描述了不同节的位置和大小
其中
(1).data节是已初始化的全局和静态C变量，局部的C变量在运行时被保存在栈中。
(2).bss节存放的是未初始化的全局和静态C变量，以及所有被初始化为0的全局或静态变量。实际上这个节不占据实际的空间，仅仅是一个占位符而已。
(3).symtab节是一个符号表，每一个可重定位文件都有拥有，存放函数和全局变量的信息，不包含局部变量的条目。

7.5 符号和符号表

每一个可重定位目标模块m都有一个符号表。包含三种符号

由m定义并能被其他模块引用的全局符号，就是在m定义的非静态函数和非静态全局变量
由其他模块并能被m引用的全局符号，就是在那些模块中定义的非静态函数和非静态全局变量
只被m定义和引用的局部符号，在m定义的静态函数和静态全局变量

注意：任何带有static属性生命的全局变量或者函数都是模块私有的。任何不带有static属性生命的全局变量和函数都是公共的，可以被其他模块访问

下图是符号表
在这里插入图片描述
name字段是字符串表中的字节位移。一个目标文件可能有多个字符串表，下面是字符串表的介绍

value字段，对于可重定位文件，它是距离定义目标的节的起始位置的偏移；对于可执行文件，它是绝对地址

size是目标的大小(以字节为单位)

section字段，表明这个字符串属于目标文件的哪个节。
先验知识：可重定位目标文件有三个(类)伪节，节头部表是没有它们的索引的。
它们分别是:
ABS:不需要重定位的符号，比如源代码的路径名；
COMMON:未初始化的全局变量；
.bss保存的是未初始化的静态变量，及初始化为0的全局变量和静态变量；
UND:在目标文件m中引用，但定义在别的文件中的符号；
下面是示例
main.o是mian.c的.o文件

############main.c###############
int sum(int *a, int n);

int array[2] = {1, 2};

int main()
{
    int val = sum(array, 2);
    return val;
}
############sum.c###############
int sum(int *a, int n)
{
    int i, s = 0;

    for(int i = 0; i < n; i++){
        s += a[i];
    }
    return s;
}

readelf -s main.o//这是命令，readelf是一个查看目标文件内容的工具

Symbol table '.symtab' contains 12 entries:
   Num:    Value          Size Type    Bind   Vis      Ndx Name
     0: 0000000000000000     0 NOTYPE  LOCAL  DEFAULT  UND
     1: 0000000000000000     0 FILE    LOCAL  DEFAULT  ABS main.c
     2: 0000000000000000     0 SECTION LOCAL  DEFAULT    1
     3: 0000000000000000     0 SECTION LOCAL  DEFAULT    3
     4: 0000000000000000     0 SECTION LOCAL  DEFAULT    4
     5: 0000000000000000     0 SECTION LOCAL  DEFAULT    6
     6: 0000000000000000     0 SECTION LOCAL  DEFAULT    7
     7: 0000000000000000     0 SECTION LOCAL  DEFAULT    5
     8: 0000000000000000    26 FUNC    GLOBAL DEFAULT    1 main
     9: 0000000000000000     8 OBJECT  GLOBAL DEFAULT    3 array
    10: 0000000000000000     0 NOTYPE  GLOBAL DEFAULT  UND _GLOBAL_OFFSET_TABLE_
    11: 0000000000000000     0 NOTYPE  GLOBAL DEFAULT  UND sum

readelf -S main.o
There are 12 section headers, starting at offset 0x2c0:

Section Headers:
  [Nr] Name              Type             Address           Offset
       Size              EntSize          Flags  Link  Info  Align
  [ 0]                   NULL             0000000000000000  00000000
       0000000000000000  0000000000000000           0     0     0
  [ 1] .text             PROGBITS         0000000000000000  00000040
       000000000000001a  0000000000000000  AX       0     0     1
  [ 2] .rela.text        RELA             0000000000000000  00000218
       0000000000000030  0000000000000018   I       9     1     8
  [ 3] .data             PROGBITS         0000000000000000  00000060
       0000000000000008  0000000000000000  WA       0     0     8
  [ 4] .bss              NOBITS           0000000000000000  00000068
       0000000000000000  0000000000000000  WA       0     0     1
  [ 5] .comment          PROGBITS         0000000000000000  00000068
       000000000000002c  0000000000000001  MS       0     0     1
  [ 6] .note.GNU-stack   PROGBITS         0000000000000000  00000094
       0000000000000000  0000000000000000           0     0     1
  [ 7] .eh_frame         PROGBITS         0000000000000000  00000098
       0000000000000030  0000000000000000   A       0     0     8
  [ 8] .rela.eh_frame    RELA             0000000000000000  00000248
       0000000000000018  0000000000000018   I       9     7     8
  [ 9] .symtab           SYMTAB           0000000000000000  000000c8
       0000000000000120  0000000000000018          10     8     8
  [10] .strtab           STRTAB           0000000000000000  000001e8
       000000000000002d  0000000000000000           0     0     1
  [11] .shstrtab         STRTAB           0000000000000000  00000260
       0000000000000059  0000000000000000           0     0     1

7.6 符号解析

符号解析的意思就是知道一个符号是什么意思，它的定义是什么
局部符号解析：每个局部变量都有一个定义，很容易就能找到它的定义
全局符号解析：

如果编译器编译模块的时候，碰到一个不是在本地定义的符号，会假设这个符号在其他模块定义，生成连接器符号表条目并交给链接器处理。如果链接器在任何的输入模块都找不到这个符号的定义，那么就输出一条(通常难以阅读)的错误信息并终止。

链接器符号重整
C++有重载方法，它们的名字相同，但是参数列表不同。编译器会将方法和参数列表编码成一个唯一的名字，链接器就能识别特定的重载方法，这个过程叫做重整；相反的过程叫做恢复。

7.6.1 链接器如何解析多重定义的全局符号

如果一个多个文件内都定义了同名的全局符号，会怎么处理呢？
汇编器在汇编的时候，会把全局符号进行分类，分成强符号跟弱符号，强符号是函数和已经初始化的全局变量，若符号是未初始化的全局变量。然后把这个分类信息放到可重定位目标文件的符号表里面。

Linux链接器使用以下规则来处理多重定义的符号名：

不允许有多个同名的强符号
如果有一个强符号和多个弱符号同名，那么选择强符号
如果有多个弱符号同名，那么任意挑一个

下面是一个例子
在这里插入图片描述
链接器会选择强符号。但是输出的结果却是15212，也就是会产生bug，用的是f()所在文件的全局符号的值。

7.6.2 与静态库链接

静态库是这样的，把文件打包成一个个可重定位目标文件(.o文件)，然后这些文件(目标模块)封装成静态库文件。在链接的时候，把静态库文件放到命令行上面，如下：

linux> gcc main.c /usr/lib/libm.a

libm.a就是一个静态库。链接器在链接的时候会把静态库文件中被main.c引用的目标模块复制出来，其他目标模块不做操作。
在 Linux 系统中，静态库以一种称为存档的特殊文件格式存放磁盘中。存档文件是一组可重定位目标文件的集合，有一个头部用来描述每个成员目标文件的大小和位置，以.a为后缀。

下面是创建静态库的例子
在这里插入图片描述
再定义一个vector.h文件声明一下这两个文件的函数。
最后使用一个main2.c文件来使用。

//生成库
linux> gcc -c addvec.c multvec.c
linux> ar rcs libvector.a addvec.o multvec.o

//编译并链接
linux> gcc -c main2.c
linux> gcc -static -o prog2c main2.o ./libvector.a
//-static参数的意思是完全链接，链接器应该构建一个完全链接的可执行目标文件，可以加载到内存中运行，在加载的时候不用再链接

在这里插入图片描述

上面是过程。在链接器运行的时候，它判定了main2.o引用了addvec.o定义的addvec符号，所以复制addvec.o到可执行文件，libvector.a库中其他的.o文件没有用到，所以就不复制了。因为main2.c还用到了printf，所以递归地再复制一些库过来。
下面是另一种静态库的实现方法，https://cloud.tencent.com/developer/article/1721035
在这里插入图片描述

7.6.3 链接器怎么用静态库来解析引用

在符号解析阶段，链接器从左到右按照它们在编译器驱动程序命令行上出现的顺序来扫描可重定位目标文件和存档文件。
在扫描中，链接器会维护一个可重定位目标文件的集合 E，一个未解析的符号 (即引用了但尚未定义的符号) 集合 U，已定义的符号集合 D。初始时 E, U, D 都为空。

如果 f 是一个目标文件，链接器会把 f 添加到 E，修改 U 和 D 来反映 f 中的符号定义和引用，并继续下一个输入文件。
如果 f 是一个存档文件，链接器会尝试匹配 U 中未解析的符号和存档文件成员定义的符号。
a. 如果 f 中的某个成员 m 定义了一个符号来解析 U 中的一个引用，就把 m 加到 E 中，并修改 U 和 D 来反映 m 中的符号定义和引用
b.对存档文件中所有的成员目标文件都依次进行这个过程。之后任何不包含在 E 中的成员目标文件都简单地被丢弃。
c.处理完 f，链接器会继续处理下一个输入文件。
当链接器扫描完所有输入文件后，如果 U 是非空的，链接器会输出一个错误并终止。

所以有一个规则，定义符号的库必须放在使用符号的代码(库)后面
如果foo.c使用了libx.a和liby.a的函数，这两个库又调用了libz.a的函数，那么命令行必须这么写

linux> gcc foo.c libx.a libz.a liby.a

如果库之间存在相互依赖，例如foo.c调用libx.a,libx.a调用liby.a函数，liby.a反过来又调用libx.a的函数，那么就这样写：

linux> gcc foo.c libx.a liby.a libx.a

7.7 重定位

https://zhuanlan.zhihu.com/p/419683114 结合这个跟书一起看。
目的是为了让链接器看到某个目标模块的外部函数的引用或者全局变量的引用的时候，能够自己计算出这个引用的地址。
流程是目标模块不知道外部定义的函数的位置，也不知道全局变量的位置，那么就生成一个重定位条目
链接器根据重定位条目进行计算，然后修改可执行文件中的值
在加载的时候，加载器直接把这些字节复制到内存，然后直接执行这些指令。

7.10 动态链接库

https://blog.csdn.net/breakpoints_/article/details/116166379讲述了动态链接库与静态链接库的区别
https://blog.csdn.net/weixin_36670529/article/details/102801943 这个讲的更清楚
静态链接库：当要使用时，连接器会找出程序所需的函数，然后将它们拷贝到执行文件，由于这种拷贝是完整的，所以一旦连接成功，静态程序库也就不再需要了。

动态库而言：某个程序在运行中要调用某个动态链接库函数的时候，操作系统首先会查看所有正在运行的程序，看在内存里是否已有此库函数的拷贝了。如果有，则让其共享那一个拷贝；只有没有才链接载入。在程序运行的时候，被调用的动态链接库函数被安置在内存的某个地方，所有调用它的程序将指向这个代码段。因此，这些代码必须使用相对地址，而不是绝对地址。在编译的时候，我们需要告诉编译器，这些对象文件是用来做动态链接库的，所以要用地址无关代码（Position Independent Code (PIC))。

7.12 位置无关代码

X86汇编AT&T语法基础： https://blog.51cto.com/u_14207158/2614981
rip是什么东西：https://zhuanlan.zhihu.com/p/469950256
rip是指针寄存器，PC寄存器就存储着正在执行的指令的下一条要执行的指令

还是没看明白，看看这个https://www.zhihu.com/question/21249496

你好！这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章，了解一下Markdown的基本语法知识。
我们对Markdown编辑器进行了一些功能拓展与语法支持，除了标准的Markdown编辑器功能，我们增加了如下几点新功能，帮助你用它写博客：

全新的界面设计 ，将会带来全新的写作体验；
在创作中心设置你喜爱的代码高亮样式，Markdown 将代码片显示选择的高亮样式 进行展示；
增加了 图片拖拽 功能，你可以将本地的图片直接拖拽到编辑区域直接展示；
全新的 KaTeX数学公式 语法；
增加了支持甘特图的mermaid语法¹ 功能；
增加了 多屏幕编辑 Markdown文章功能；
增加了 焦点写作模式、预览模式、简洁写作模式、左右区域同步滚轮设置 等功能，功能按钮位于编辑区域与预览区域中间；
增加了 检查列表 功能。

功能快捷键

撤销：Ctrl/Command + Z
重做：Ctrl/Command + Y
加粗：Ctrl/Command + B
斜体：Ctrl/Command + I
标题：Ctrl/Command + Shift + H
无序列表：Ctrl/Command + Shift + U
有序列表：Ctrl/Command + Shift + O
检查列表：Ctrl/Command + Shift + C
插入代码：Ctrl/Command + Shift + K
插入链接：Ctrl/Command + Shift + L
插入图片：Ctrl/Command + Shift + G
查找：Ctrl/Command + F
替换：Ctrl/Command + G

合理的创建标题，有助于目录的生成

直接输入1次#，并按下space后，将生成1级标题。
输入2次#，并按下space后，将生成2级标题。
以此类推，我们支持6级标题。有助于使用TOC语法后生成一个完美的目录。

如何改变文本的样式

强调文本 强调文本

加粗文本 加粗文本

标记文本

~~删除文本~~

引用文本

H₂O is是液体。

2¹⁰ 运算结果是 1024.

插入链接与图片

链接: link.

图片: Alt

带尺寸的图片:

居中的图片: Alt

居中并且带尺寸的图片:

当然，我们为了让用户更加便捷，我们增加了图片拖拽功能。

如何插入一段漂亮的代码片

去博客设置页面，选择一款你喜欢的代码片高亮样式，下面展示同样高亮的 代码片.

// An highlighted block
var foo = 'bar';

生成一个适合你的列表

项目
- 项目
  - 项目

项目1
项目2
项目3

计划任务
完成任务

创建一个表格

一个简单的表格是这么创建的：

项目	Value
电脑	$1600
手机	$12
导管	$1

设定内容居中、居左、居右

使用:---------:居中
使用:----------居左
使用----------:居右

第一列	第二列	第三列
第一列文本居中	第二列文本居右	第三列文本居左

SmartyPants

SmartyPants将ASCII标点字符转换为“智能”印刷标点HTML实体。例如：

TYPE	ASCII	HTML
Single backticks	`'Isn't this fun?'`	‘Isn’t this fun?’
Quotes	`"Isn't this fun?"`	“Isn’t this fun?”
Dashes	`-- is en-dash, --- is em-dash`	– is en-dash, — is em-dash