程序链接
源代码(source coprede)→预处理器(processor)→编译器(compiler)→汇编程序(assembler)→目标程序(object code)→链接器(Linker)→可执行程序(executables)
分配程序执行所需的栈空间、代码段、静态存储区、映射堆空间地址等,操作系统会创建一个进程结构体来管理进程,然后将进程放入就绪队列,等待CPU调度运行。
1、链接链的是什么?
链接链的就是目标文件,什么是目标文件?目标文件就是源代码编译后但未进行链接的那些中间文件,如Linux下的.o,它和可执行文件的内容和结构很相似,格式几乎是一样的,可以看成是同一种类型的文件,Linux下统称为ELF文件,这里介绍下ELF文件标准:
- 1、
可重定位文件
:Linux中的.o
,这类文件包含代码和数据,可被链接成可执行文件或共享目标文件,例如静态链接库。 - 2、
可执行文件
:可以直接执行的文件
,如/bin/bash文件。 - 3、
共享目标文件
:Linux中的.so
,包含代码和数据,一种是链接器可以使用这种文件和其它的可重定位文件和共享目标文件链接,另一种是动态链接器可以将几个这种共享目标文件和可执行文件结合,作为进程映像的一部分来执行。 - 4、
core dump文件
:进程意外终止时,系统可以将该进程的地址空间的内容和其它信息存到coredump文件用于调试,如gdb。
我们可以使用command file来查看文件的格式:
file test.o; file /bin/bash;
目标文件的构成
目标文件主要分为文件头、代码段、数据段和其它。
- 文件头:描述整个文件的文件属性(文件是否可执行、是静态链接还是动态链接、
入口地址
、目标硬件、目标操作系统等信息),还包括段表,用来描述文件中各个段的数组,描述文件中各个段在文件中的偏移位置和段属性。 - 代码段:程序源代码编译后的机器指令。
- 数据段:数据段分为.data段和.bss段。
- .data段内容:已经初始化的全局变量和局部静态变量
- .bss段内容:未初始化的全局变量和局部静态变量,.bss段只是为未初始化的全局变量和局部静态变量预留位置,本身没有内容,不占用空间。
- 除了代码段和数据段,还有.rodata段、.comment、字符串表、符号表和堆栈提示段等等,还可以自定义段。
2、链接器通过什么进行的链接?
链接的接口是符号
,在链接中,将函数和变量统称为符号
,函数名和变量名统称为符号名
。链接过程的本质就是把多个不同的目标文件之间相互“粘”到一起
,像玩具积木一样各有凹凸部分,有固定的规则可以拼成一个整体。
可以将符号看作是链接中的粘合剂,整个链接过程基于符号才可以正确完成,符号有很多类型,主要有局部符号和外部符号:
- 局部符号只在编译单元内部可见,对于链接过程没有作用
- 在目标文件中引用的全局符号,却没有在本目标文件中被定义的叫做外部符号,以及定义在本目标文件中的可以被其它目标文件引用的全局符号,在链接过程中发挥重要作用。
可以使用一些命令来查看符号信息:
command nm:
$ nm test.o
U _GLOBAL_OFFSET_TABLE_
0000000000000000 T main
U puts
command objdump:
objdump -t test.o
test.o: file format elf64-x86-64
SYMBOL TABLE:
0000000000000000 l df *ABS* 0000000000000000 test_c.cc
0000000000000000 l d .text 0000000000000000 .text
0000000000000000 l d .data 0000000000000000 .data
0000000000000000 l d .bss 0000000000000000 .bss
0000000000000000 l d .rodata 0000000000000000 .rodata
0000000000000000 l d .note.GNU-stack 0000000000000000 .note.GNU-stack
0000000000000000 l d .eh_frame 0000000000000000 .eh_frame
0000000000000000 l d .comment 0000000000000000 .comment
0000000000000000 g F .text 0000000000000017 main
0000000000000000 *UND* 0000000000000000 _GLOBAL_OFFSET_TABLE_
0000000000000000 *UND* 0000000000000000 puts
command readelf:
readelf -s test.o
Symbol table '.symtab' contains 12 entries:
Num: Value Size Type Bind Vis Ndx Name
0: 0000000000000000 0 NOTYPE LOCAL DEFAULT UND
1: 0000000000000000 0 FILE LOCAL DEFAULT ABS test_c.cc
2: 0000000000000000 0 SECTION LOCAL DEFAULT 1
3: 0000000000000000 0 SECTION LOCAL DEFAULT 3
4: 0000000000000000 0 SECTION LOCAL DEFAULT 4
5: 0000000000000000 0 SECTION LOCAL DEFAULT 5
6: 0000000000000000 0 SECTION LOCAL DEFAULT 7
7: 0000000000000000 0 SECTION LOCAL DEFAULT 8
8: 0000000000000000 0 SECTION LOCAL DEFAULT 6
9: 0000000000000000 23 FUNC GLOBAL DEFAULT 1 main
10: 0000000000000000 0 NOTYPE GLOBAL DEFAULT UND _GLOBAL_OFFSET_TABLE_
11: 0000000000000000 0 NOTYPE GLOBAL DEFAULT UND puts
3、为什么需要extern “C”?
- C语言
函数和变量的符号名基本就是函数名字变量名字
,不同模块如果有相同的函数或变量名字就会产生符号冲突无法链接成功的问题 - C++引入了命名空间来解决这种符号冲突问题。同时为了支持函数重载C++也会根据函数名字以及命名空间以及参数类型生成特殊的符号名称。
- 由于C语言和C++的符号修饰方式不同,C语言和C++的目标文件在链接时可能会报错说找不到符号,
所以为了C++和C兼容,引入了extern "C"
- 当引用某个C语言的函数时加extern "C"告诉编译器对此函数使用C语言的方式来链接,如果C++的函数用extern
"C"声明,则此函数的符号就是按C语言方式生成的。
以memset函数举例,C语言中以C语言方式来链接,但是在C++中以C++方式来链接就会找不到这个memset的符号,所以需要使用extern "C"方式来声明这个函数,为了兼容C和C++,可以使用宏来判断,用条件宏判断当前是不是C++代码,如果是C++代码则extern “C”。
#ifdef __cplusplus
extern "C" {
#endif
void *memset(void *, int, size_t);
#ifdef __cplusplus
}
#endif
参考
1、https://zhuanlan.zhihu.com/p/145263213