欢迎查看《深入理解计算机系统》系列博客
《深入理解计算机系统》笔记(四)虚拟存储器,malloc,垃圾回收
《深入理解计算机系统》笔记(五)并发、多进程和多线程【Final】
--------------------------------------------------------------------------------------------------------------------概述
●该章节主要讲解的是ELF文件的结构。
●静态库的概念
●动态库(又叫共享库)的概念,一般用于操作系统,普通应用程序作用不大。
●程序的加载过程。
该书中对链接的解释也不够详细。在章节最后,作者也承认:在计算机系统文献中并没有很好的记录链接。因为链接是处在编译器、计算机体系结构和操作系统的交叉点上,他要求理解代码生成、机器语言编程、程序实例化和虚拟存储器。它恰好不落在某个通常的计算机系统领域中。
该章节讲述Linux的X86系统,使用标准的ELF目标文件,无论是什么样的操作系统,细节可能不尽相同,但是概念是相同的。
读完这一章节后,对“符号”的概念很是模糊。
7.1编译驱动程序
这里再说一下编译系统。大多数编译系统提供编译驱动程序,它代表用户在需要的时候调用语言预处理、编译器、汇编器、和链接器。我自己画了一个结构图。
7.2静态链接
7.3目标文件
可定位目标文件的结构:让你深入了解程序段,数据段,bss段,符号表等等。
7.4可重定位目标文件——参考7.3
7.5符号和符号表
符号表是一个数组,数组里存放一个结构体。
typedef struct {
int name; /*String table offset*/
int value; /*Section offset, or VM address*/
int size; /*Object size in bytes*/
char type:4, /*Data, fund,section,or src file name (4 bits)*/
binding:4; /* Local of global(4bits)*/
char reserved; /*Unused*/
char section; /*Section header index ABS UNDEF*/
}Elf_Symbol;
7.6符号解析
原则是:编译器只允许每个模块中每个本地符号只有一个定义。而且对全局的符号的解析很棘手,因为多个目标文件可能会定义相同的符号。C++和Java使用mangling手段来支持重载。
多重定义的全局符号,请看下面的程序:
/*foo.c*/ /*bar.c*/
#include <stdio.h> int x;
void f(void); void f()
int x =15213; {
int main() x = 15212;
{ }
f();
printf("x=%d\n",x);
return 0;
}
大家能猜到输出的结果是15212;这是因为:bar.c中的x全局变量没有初始化,导致函数f中使用的是foo文件中的x变量。
根据Unix连接器使用下面的规则来处理多重定义的符号:
●规则1:不允许有多个强符号。
●规则2:如果有一个强符号和多个弱符号,那么选择强符号(这就是上面这道题的答案,初始化的int x=15213是强符号,而int x;是弱符号)
●规则3:如果有多个弱符号,那么从这些弱符号中任意选择一个(多么可怕啊)
静态库
事先写好的一些可重定位的目标文件打包成一个单独的文件,它可以用作连接器的输入。当连接器构造一个输出的可执行文件时,它只拷贝静态库里被应用程序引用的目标模块。(稍后讲解动态链接库,也称之为共享库)。
在Unix系统中,静态库以一种成为存档(archive)的特殊文件格式存放在磁盘中。存档文件是一组连接起来的可重定位目标文件的集合。有一个头部用来描述每个成员目标文件的大小和位置。存档文件的后缀是.a标识。是否可以这么理解.a文件的结构呢?(自己画图)
下面用展示一个静态库连接的过程:
7.7重定位
7.8可执行文件
参考7.3节图中央部分。可执行文件跟可重定位目标文件非常相似。只是可执行文件多了“init”和“段头部表"少了,”.rel.text“和”.rel.data“两个节。
7.9加载可执行文件。
从7.3节图中可以发现,右部是加载后的程序结构。ELF目标文件被设计的非常容易加载到存储器。需要注意的是Unix中,程序总的代码段总是从0x0804800处开始(这就是虚拟存储器的作用)。数据段是在接下来的下一个4KB对齐的地址处。运行时堆在"读/写段"之后接下来的第一个4KB对齐的地址处,并通过malloc库往上增长。而栈总是往下生长。
7.10动态库(共享库)
动态库是为了解决静态库的两个弊端而出现的,静态库的两个弊端:1)静态库更新后,程序要获得该静态库然后再编译。2)不同程序可能使用相同的静态库,导致很多静态库中的代码重复被加载到存储器中。
共享库是致力于解决静态库的缺陷而出现的现代创新型产物。共享库是一块目标模块,在运行时,可以加载到任意的存储器地址,并和一个在存储其中的程序链接起来。这个过程称之为”动态链接“,是由一个叫做”动态链接器“的程序来完成的。
共享库是以梁总方式来共享的:1)所有引用该库的程序都共享一个.so文件中的代码和数据,而不是静态库一样拷贝一份。2)在存储器中,一个共享库的.text节的一个副本可以被不同正在运行的进城共享,从而节约宝贵的存储器资源。(Unix中动态库以.so后缀表示。)
理解动态库=共享库的概念非常重要。动态库一般是大型软件或者操作系统的最爱,因为对于普通应用来说,没有那么多库给别人使用,绝大多数都是自己用,所以静态库就够了。
7.11从应用程序中加载和链接共享库
应用程序还可能从应用程序中加载和链接任意共享库,而无需编译时链接那些库到应用中(这个牛逼大了)!
Windows中的更新大部分是这个技术。另外还有构建高性能web服务器。
Linux为动态链接器提供了一系列简单的接口:
#include <dlfcn.h>
void *dlopen(const char *filename, int flag);//加载共享库
void *dlsym(void *handle, char *symbol); //指向一个共享库的句柄和一个符号名字。
int dlclose(void *handle); //下载共享库
const char *dlerror(void); //容错
Java定义了一个标准的调用规则,叫做Java本地接口(Java NativeInterface,JNI),它允许Java程序调用本地的C和C++函数。JNI的基本思想是将本地的C函数,如foo,编译到共享库中,如foo.so .当一个正在运行的Java程序试图调用函数foo时,Java解析程序利用dlopen接口(或者类似的接口)动态链接和加载foo.so,然后调用foo。
7.12与位置无关的代码(PIC)
7.13处理目标文件的工具