#####################################
作者:张卓
原创作品转载请注明出处:《Linux操作系统分析》MOOC课程 http://www.xuetangx.com/courses/course-v1:ustcX+USTC001+_/about
#####################################
一. 预处理、编译、链接和目标文件的格式
1. 可执行程序是怎么得来的
gcc gas ld loader
.c ---------> .asm--------->.o ---------> a.out------------> memory
预处理:-E
负责把include的文件包含进来及宏替换等工作,生成.i 文件
编译:-S
把预处理过后的源码编译成汇编代码,生成.s 文件
汇编:-c
把汇编代码编译成目标文件,生成.o文件
链接:-o
链接动态库,生成可执行文件ELF
预处理、编译和链接相关命令参考
可执行文件的创建——预处理、编译和链接
shiyanlou:~/ $ cd Code [9:27:05]
shiyanlou:Code/ $ vi hello.c [9:27:14]
shiyanlou:Code/ $ gcc -E -o hello.cpp hello.c -m32 [9:34:55]
shiyanlou:Code/ $ vi hello.cpp [9:35:04]
shiyanlou:Code/ $ gcc -x cpp-output -S -o hello.s hello.cpp -m32 [9:35:21]
shiyanlou:Code/ $ vi hello.s [9:35:28]
shiyanlou:Code/ $ gcc -x assembler -c hello.s -o hello.o -m32 [9:35:58]
shiyanlou:Code/ $ vi hello.o [9:38:44]
shiyanlou:Code/ $ gcc -o hello hello.o -m32 [9:39:37]
shiyanlou:Code/ $ vi hello [9:39:44]
shiyanlou:Code/ $ gcc -o hello.static hello.o -m32 -static [9:40:21]
shiyanlou:Code/ $ ls -l [9:41:13]
-rwxrwxr-x 1 shiyanlou shiyanlou 7292 3\u6708 23 09:39 hello
-rw-rw-r-- 1 shiyanlou shiyanlou 64 3\u6708 23 09:30 hello.c
-rw-rw-r-- 1 shiyanlou shiyanlou 17302 3\u6708 23 09:35 hello.cpp
-rw-rw-r-- 1 shiyanlou shiyanlou 1020 3\u6708 23 09:38 hello.o
-rw-rw-r-- 1 shiyanlou shiyanlou 470 3\u6708 23 09:35 hello.s
-rwxrwxr-x 1 shiyanlou shiyanlou 733254 3\u6708 23 09:41 hello.static
ELF目标文件格式
shiyanlou:Code/ $ readelf -h hello
- 查看该ELF文件依赖的共享库
shiyanlou:sharelib/ $ ldd main [21:25:56]
linux-gate.so.1 => (0xf774e000) # 这个是vdso - virtual DSO:dynamically shared object,并不存在这个共享库文件,它是内核的一部分,为了解决libc与新版本内核的系统调用不同步的问题,linux-gate.so.1里封装的系统调用与内核支持的系统调用完全匹配,因为它就是内核的一部分嘛。而libc里封装的系统调用与内核并不完全一致,因为它们各自都在版本更新。
libshlibexample.so => /home/shiyanlou/LinuxKernel/sharelib/libshlibexample.so (0xf7749000)
libdl.so.2 => /lib32/libdl.so.2 (0xf7734000)
libc.so.6 => /lib32/libc.so.6 (0xf7588000)
/lib/ld-linux.so.2 (0xf774f000)
shiyanlou:sharelib/ $ ldd /lib32/libc.so.6 [21:37:00]
/lib/ld-linux.so.2 (0xf779e000)
linux-gate.so.1 => (0xf779d000)
# readelf -d 也可以看依赖的so文件
shiyanlou:sharelib/ $ readelf -d main [21:28:04]
Dynamic section at offset 0xf04 contains 26 entries:
0x00000001 (NEEDED) 共享库:[libshlibexample.so]
0x00000001 (NEEDED) 共享库:[libdl.so.2]
0x00000001 (NEEDED) 共享库:[libc.so.6]
0x0000000c (INIT) 0x80484f0
0x0000000d (FINI) 0x8048804
0x00000019 (INIT_ARRAY) 0x8049ef8
2. 目标文件的格式ELF
常见的目标文件格式:
-------->PE(Windows系统下)
a.out--------> COFF-------->ELF(Linux系统下,Executable and Linkable Format)
ABI和目标文件格式是什么关系?
目标文件已是二进制兼容格式,就是已经适应某一种CPU体系结构上的二进制指令。
ELF中三种目标文件:
- 一个可重定位(relocatable)文件保存着代码和适当的数据,用来和其他的object文件一起创建一个可执行文件或者是一个共享文件。主要是.o文件
- 一个可执行(executeable)文件保存着一个用来执行的程序;该文件指出了exec(BA_OS)如何来创建进程映象。
- 一个共享object文件保存着代码和合适的数据,用来被下面的两个链接器链接。第一个是连接编辑器【请查看ld(SD_CMD)】,可以和其他的可重定位和共享object文件来创建其他的object。第二个是动态链接器,联合一个可执行文件和其他的共享object文件来创建一个进程映象。主要是.so文件
查看一个可执行文件的ELF头信息,
cagent @ubuntu-M83 LinuxKernel$ readelf -h hello
ELF Header:
Magic: 7f 45 4c 46 02 01 01 00 00 00 00 00 00 00 00 00
Class: ELF64
Data: 2's complement, little endian
Version: 1 (current)
OS/ABI: UNIX - System V
ABI Version: 0
Type: EXEC (Executable file)
Machine: Advanced Micro Devices X86-64
Version: 0x1
Entry point address: 0x400440
Start of program headers: 64 (bytes into file)
Start of section headers: 4472 (bytes into file)
Flags: 0x0
Size of this header: 64 (bytes)
Size of program headers: 56 (bytes)
Number of program headers: 9
Size of section headers: 64 (bytes)
Number of section headers: 30
Section header string table index: 27
当创建或增加一个进程映像的时候,系统在理论上将拷贝一个文件的段到一个虚拟的内存段:
3. 静态链接的ELF可执行文件与进程的地址空间
可执行文件加载到内存中开始执行的第一行代码:Entry point address:
一般静态链接会将所有代码放在一个代码段
动态链接的进程会有多个代码段
二. 可执行程序、共享库和动态链接
1. 装载可执行之前的工作
可执行程序的执行环境
- 命令行参数和shell环境,一般我们执行一个程序的Shell环境,我们的实验直接使用execve系统调用。
-
-
- $ ls -l /usr/bin 列出/usr/bin下的目录信息
- Shell本身不限制命令行参数的个数,命令行参数的个数受限于命令自身
-
例如,int main(int argc, char *argv[])
又如, int main(int argc, char *argv[], char *envp[])
-
-
- Shell会调用execve将命令行参数和环境参数传递给可执行程序的main函数
-
int execve(const char * filename,char * const argv[ ],char * const envp[ ]);
库函数exec*都是execve的封装例程
#include <stdio.h>
#include <stdlib.h>
#include <unistd.h>
int main(int argc, char * argv[])
{
int pid;
/* fork another process */
pid = fork();
if (pid<0)
{
/* error occurred */
fprintf(stderr,"Fork Failed!");
exit(-1);
}
else if (pid==0)
{
/* child process */
execlp("/bin/ls","ls",NULL);
}
else
{
/* parent process */
/* parent will wait for the child to complete*/
wait(NULL);
printf("Child Complete!");
exit(0);
}
}
- 命令行参数和环境串都放在用户态堆栈中
1) 命令行参数和环境变量是如何保存和传递的?
保存形式如上图,
2) 命令行参数和环境变量是如何进入新程序堆栈的?
命令行参数和环境变量都放在用户态堆栈中;当创建一个新的用户堆栈的时候,我们实际上是把命令行参数的内容和环境变量的内容,通过指令的形式传递给了系统调用execve的内核处理函数,然后内核处理函数在创建一个新的用户态堆栈的时候会把这些命令行参数和环境变量拷贝到用户堆栈中,来初始化新程序的上下文环境,所以新程序能从main函数开始执行,接受对应的参数。
总结:
Shell程序-->execve-->sys_execve, 然后在初始化新程序堆栈时拷贝进去
先函数调用参数传递,再系统调用参数传递。
2. 装载时动态链接和运行时动态链接应用举例
动态链接分为可执行程序装载时动态链接和运行时动态链接,如下代码演示了这两种动态链接。
- 准备.so文件
shlibexample.h (1.3 KB) - Interface of Shared Lib Example
shlibexample.c (1.2 KB) - Implement of Shared Lib Example
编译成libshlibexample.so文件
$ gcc -shared shlibexample.c -o libshlibexample.so -m32
dllibexample.h (1.3 KB) - Interface of Dynamical Loading Lib Example
dllibexample.c (1.3 KB) - Implement of Dynamical Loading Lib Example
编译成libdllibexample.so文件
$ gcc -shared dllibexample.c -o libdllibexample.so -m32
- 分别以共享库和动态加载共享库的方式使用libshlibexample.so文件和libdllibexample.so文件
main.c (1.9 KB) - Main program
编译main,注意这里只提供shlibexample的-L(库对应的接口头文件所在目录)和-l(库名, 如libshlibexample.so去掉lib和.so的部分),并没有提供dllibexample的相关信息,只是指明了-ldl
$ gcc main.c -o main -L/path/to/your/dir -lshlibexample -ldl -m32
$ export LD_LIBRARY_PATH=$PWD #将当前目录加入默认路径,否则main找不到依赖的库文件,当然也可以将库文件copy到默认路径下。
$ ./main
This is a Main program!
Calling SharedLibApi() function of libshlibexample.so!
This is a shared libary!
Calling DynamicalLoadingLibApi() function of libdllibexample.so!
This is a Dynamical Loading libary!
源文件代码如附件
三. 可执行程序的装载
execve和fork都是特殊一点的系统调用
子进程是从ret_from_fork开始执行然后返回用户态
通过修改内核堆栈中EIP的值作为新程序的起点
1. sys_execve内核处理过程
do_execve->do_execve_common->exec_binprm->
search_binary_handler(linux-3.18.6/fs/exec.c)
根据文件头部信息寻找对应的文件格式处理模块
->load_elf_binary(linux-3.18.6/fs/binfmt_elf.c)
ELF可执行文件会被默认映射到0x8048000这个地址
->elf_interpreter(linux-3.18.6/fs/binfmt_elf.c:load_elf_binary)
需要动态链接的可执行文件先加载连接器ld
->start_thread(linux-3.18.6/fs/binfmt_elf.c:load_elf_binary)
需要动态链接时,将CPU控制权交给ld来加载依赖库并完成动态链接
对于静态链接的文件elf_entry是新程序执行的起点。
Note: search_binary_handler寻找符合文件格式对应的解析模块,如下:
1369 list_for_each_entry(fmt, &formats, lh) {
1370 if (!try_module_get(fmt->module))
1371 continue;
1372 read_unlock(&binfmt_lock);
1373 bprm->recursion_depth++;
1374 retval = fmt->load_binary(bprm);
1375 read_lock(&binfmt_lock);
2. 使用gdb跟踪sys_execve内核函数的处理过程
gdb
(gdb) b sys_execve
(gdb) b load_elf_binary
(gdb) b start_thread
(gdb) po new_ip
new_ip是返回用户态的第一条指令的地址
四. 小结
动态链接的可执行程序的装载
1. ldd查看可执行文件的动态链接库
2. 可以关注ELF格式中的.interp和.dynamic段。.interp段保存程序解释器的路径名。.dynamic段保存动态链接的信息。
3. 动态连接器ld负责装载可执行程序依赖的动态库
4. 动态链接库的装载过程是一个图的遍历
5. 装载和链接之后将CPU的控制权交给可执行程序