[2023]哈尔滨工业大学计算机系统大作业

汇编是将汇编语言代码翻译成二进制机器语言，并生成可重定位目标文件的过程。汇编器(as)将 hello.s 翻译成机器语言指令，打包成可重定位目标程序，将结果保存在目标文件hello.o中。hello.o文件是一个二进制文件，它包含的是函数main的指令编码。得到的二进制机器语言是机器可以直接理解并运行的，只要再经过链接就可以得到能够运行的完整程序了。

4.2 在Ubuntu下汇编的命令

gcc -m64 -no-pie -fno-PIC -c hello.s -o hello.o

4.3 可重定位目标elf格式

4.3.1 ELF头

ELF header以一个16字节的序列开始，这个序列描述了生成该文件的系统的字的大小和字节顺序。其余部分帮助链接器语法分析和解释目标文件的信息。

4.3.2 节头部表

包含了不同节的类型，地址，偏移大小等基本信息

4.3.3 程序头

4.3.4 重定位条目

文件中有一些内存地址或引用在链接前是待定的，需要视链接的情况指定确切的地址。因此，需要对这些地址进行重定位。因此需要一个重定位表对每个代码段或数据段进行定位，方便对它们进行查找和操作。

4.3.5符号表

.symtab是符号表，它列举了程序中用到的函数和全局变量。

4.4 Hello.o的结果解析

objdump -d -r hello.o >hello.txt

1.进制从十进制转化为了十六进制:

2.寻址方式改变：

直接使用内存地址而不是.L2等来寻址，增加运行效率

4.5 本章小结

本章介绍了汇编的概念和作用，通过生成的ELF程序了解了在执行编译时使用的表的结构，同时也用反汇编工具对生成的汇编代码进行分析，认识理解到了汇编过程和编译过程中编译器做出的工作，也了解了重定位策略
第5章链接

（1分）

5.1 链接的概念与作用

链接是结合多个不同的可重定位目标文件，得到具有统一内存地址，能够运行的可执行程序的过程。链接将不同文件中的数据和程序段结合统一起来，在编程时方便由各个小文件组成大型程序，条理清晰，方便模块化编程。

5.2 在Ubuntu下链接的命令

ld -o hello -dynamic-linker /lib64/ld-linux-x86-64.so.2 /usr/lib/x86_64-linux-gnu/crt1.o /usr/lib/x86_64-linux-gnu/crti.o hello.o /usr/lib/x86_64-linux-gnu/libc.so /usr/lib/x86_64-linux-gnu/crtn.o

注意：前一步汇编时若使用命令gcc -m64 -no-pie -fno-PIC -c hello.s -o hello.o会导致这一步链接时报错：cannot use executable file，因此要使用命令：gcc -m64 -no-pie -fno-PIC -c hello.s -s hello.o生成的hello.o文件进行链接。

5.3 可执行目标文件hello的格式

打开后发现大致结构与之前一样，不同部分有：

ELF头的大部分内容相同，一些参数发生变化。

节头部表：节头部表的节的数量相较之前的.o文件增加了很多，增加了一些可执行文件所特有的段比如.init等。.test为程序代码，.data是初始化的全局变量，.bss是未初始化的全局变量，.rodata是只读数据节，.symtab是符号节，.strtab是字符串节

符号表增添了一些需要的变量名与函数名，是导入的库内部内容。

5.4 hello的虚拟地址空间

程序内存起始位置与.init位置相同，因为.init段在该虚拟地址的段最开始处出现，所以.init是程序最开始数据内容的地址；已经转换成机器代码的代码部分转载在.text文件内。

5.5 链接的重定位过程分析

不同：

反汇编后的call使用了实际的地址
反汇编多了很多链接后加入的节与函数。

重定位相关：

重定位节和符号定位：链接器将所有相同类型的节合并为同一类型的新的节。例如，来自所有输入模块的.data 节被全部合并成一个节，这个节成为输出的可执行目标文件的.data 节。然后，链接器将运行时内存地址赋给新的聚合节，赋给输入模块定义的每个节，以及赋给输入模块定义的每个符号。使程序中每条指令或变量都有唯一的运行时地址。

重定位节中的符号引用：通过前文提到的可重定位目标模块中的重定位条目，链接器修改代码节和数据节中对每个符号的引用，使得它们指向正确的运行时地址。

5.6 hello的执行流程

运行调用的函数名	函数名对应的地址
<_init>	401000
<.plt>	401020
<puts@plt>	401090
<printf@plt>	4010a0
<getchar@plt>	4010b0
<atoi@plt>	4010c0
<exit@plt>	4010d0
<sleep@plt>	4010e0
<_start>	4010f0
<_dl_relocate_static_pie>	401120
<main>	401125
<__libc_csu_init>	4011c0
<__libc_csu_fini>	401230
<_fini>	401238

5.7 Hello的动态链接分析

Plt相关：

运行前.plt及.plt.sec段：

运行后：

无变化，即不会被修改

运行前.got.plt：

运行后：

出现改动，说明完成动态链接过程。

5.8 本章小结

本章对链接的过程进行了拆分，将可执行文件的elf内容与第四部分的elf内容进行比较，了解了可执行程序的特殊之处；观察hello的虚拟地址空间内容，了解到各个数据段的存放方式；同时分析可重定位文件的内容；通过edb，了解了生成可执行文件的动态链接过程。

第6章 hello进程管理

（1分）

6.1 进程的概念与作用

进程的概念：

一个执行中的程序实例，包括代码与当前的活动。

进程的作用：

进程提供给了我们假象，好像我们的程序是系统当前运行的唯一的程序一样，我们的程序好像是独占地使用内存和处理器，处理器就好像是无间断地一条一条执行我们的指令，我们的代码和数据好像是系统内存中唯一的对象。

6.2 简述壳Shell-bash的作用与处理流程

shell是用户和Linux内核之间的接口程序。提示符内输入的每个命令都由shell先解释然后传给Linux内核，shell提供了一个界面，用户通过它来与内核进行交互。shell 也是一个命令语言解释器。拥有自己内建的 shell 命令集，因此也可以将shell成为一种程序设计语言。

流程：

(1)终端进程读取用户输入的命令行。

(2)判断命令是否合法，分析获取命令行参数，改造后传递给execve的argv向量

(3)终端调用fork( )创建新进程/子进程

(4)在子进程中，用步骤2获取的参数，调用execve( )执行指定程序。

(5)如果用户没要求后台运行(命令末尾没有&号）则shell使用wait等待子进程终止后返回。

(6)如果用户要求后台运行(有&号），则shell立即返回；

6.3 Hello的fork进程创建过程

父进程通过shell函数创建一个新的运行的子进程hello。Hello进程几乎但不完全和父进程相同，hello进程得到与父进程用户级虚拟空间相同但是独立的一个副本，包括代码和数据段、堆、共享库以及用户栈。子进程还获得与父进程任何打开文件描述符相同的副本，即当父进程调用fork时，子进程可以读写父进程的内容，但是它们有着不同的pid，但在父进程中，fork返回子进程的pid，在子进程中，fork返回0.

6.4 Hello的execve过程

调用函数fork创建新的子进程之后，子进程会调用execve函数，在当前进程的上下文中加载并运行一个新程序hello。execve 函数只在运行错误时返回，它将删除该进程的代码和地址空间内的内容并将其初始化，然后通过跳转到程序的第一条指令或入口点来运行该程序。它调用启动代码。启动代码设置栈，并将控制传递给新程序的主函数，进入新程序。

6.5 Hello的进程执行

进程上下文：

当一个进程在执行时,CPU的所有寄存器中的值、进程的状态以及堆栈中的内容被称为该进程的上下文。

进程时间片：

一个进程执行它的控制流的一部分的每一时间段叫做时间片。

逻辑控制流：

即使在系统中有许多其他程序在运行，进程也可以向每个程序提供一种假象，好像它在独占地使用处理器。如果想用调试器单步执行程序，我们会看到一系列的程序计数器(PC)的值，这些值唯一地对应于包含在程序的可执行目标文件中的指令，或是包含在运行时动态链接到程序的共享对象中的指令。这个 PC值的序列叫做逻辑控制流，或者简称逻辑流。

并发流：

如果一个逻辑流的执行在时间上与另一个流重叠，则称为并发流。

用户态：

执行在用户空间中，不能直接执行系统调用。必须先切换到内核态，也就是系统调用的相关数据信息必须存储在内核空间中，然后执行系统调用，操作系统将线程分为了内核态和用户态，当用户线程调用了系统调用的时候，需要将线程从用户态切换到内核态。

用户模式和内核模式的切换：

进程从用户模式变为内核模式的唯一方法是通过诸如中断、故障或者陷入系统调用这样的异常。当异常发生时，控制传递到异常处理程序，处理器将模式从用户模式变为内核模式。处理程序运行在内核模式中，当它返回到应用程序代码时，处理器就把模式从内核模式改回到用户模式。

6.6 hello的异常与信号处理

（以下格式自行编排，编辑时删除）

hello执行过程中会出现哪几类异常，会产生哪些信号，又怎么处理的。

程序运行过程中可以按键盘，如不停乱按，包括回车，Ctrl-Z，Ctrl-C等，Ctrl-z后可以运行ps jobs pstree fg kill 等命令，请分别给出各命令及运行结截屏，说明异常与信号的处理。

异常种类：中断、陷阱、故障、终止。

信号：使用命令kill -l查看：

正常运行：

Ctrl+Z(挂起)

Ctrl+C(结束进程):

Ps(查看子进程)：

Pstree(进程树):

Jobs(展示作业):

Fg(继续前台程序):

6.7本章小结

本章主要是讲了进程管理，包括shell、异常、信号以及进程的创建和执行过程。

第7章 hello的存储管理

（ 2分）

7.1 hello的存储器地址空间

逻辑地址：逻辑地址是用户编程时使用的地址，分为段地址和偏移地址两部分。

线性地址：虚拟地址到物理地址变换的中间层,如果地址空间中的整数是连续的，那么我们说他是一个线性地址空间。如hello中代码的存储是从0x400000地址一个一个字节往上增加的。

虚拟地址：是一种虚拟的地址，是由CPU生成的用来访问主存的中间地址，虚拟地址还需由MMU硬件翻译成物理地址。

物理地址：指内存中物理单元的集合，他是地址转换的最终地址，进程在运行时执行指令和访问数据最后都要通过物理地址来存取主存。

7.2 Intel逻辑地址到线性地址的变换-段式管理

一个逻辑地址由段标识符和段内偏移量组成：

段标识符：一个16位长的字段，其前13位可用于在段描述符表中找到一个具体的段描述符，段描述符分为全局段描述符(GDT)及局部段描述符(LDT)，区分方法为段标识符的第14位，0为GDT，1为LDT。再根据相应寄存器，取得其地址，找到对应的段描述符，得到其基地址。

cpu发送虚拟地址给MMU
MMU通过页表生成PTE
有效位为零，触发缺页异常
处理程序确定物理内存中牺牲页
替换成所需页面，更新内存中的PTE
返回到原来的进程，再次执行引发缺页的指令

7.9本章小结

本章我们了解了hello程序运行的背后复杂的内存管理机制，更加深入地了解了虚拟内存到物理内存的转换以及多级页表，cache等相关知识，以及fork及execve函数的实现原理。

结论

开始：使用高级语言书写成的hello.c文件。
预处理阶段：hello.c文件进行宏替换，并把调用的库中的函数定义添加到hello.c文件中，成为hello.i文件，(仍是高级语言)。
汇编阶段：hello.i被翻译为汇编语言，同用数据段来表示不同的数据结构，生成hello.s文件。
编译阶段：生成hello.o文件(机器语言文件),此时暂时没有放进一个虚拟地址内，还需等待链接步骤。
链接：生成可执行程序hello文件，此时的hello文件是由hello.o文件和其他可重定位的.o文件共同生成的。
通过shell运行hello程序： shell通过调用fork函数创建一个子进程并通过execve来运行hello这个程序，创建出一个执行hello程序的进程。
为hello创建虚拟内存空间，并映射到物理内存当中.
在执行sleep函数的过程中发生异常(ctrl+z等等)，导致hello的上下文进行切换。
最后：程序将被父进程回收(wait函数)。

附件

中间产物名	作用
hello.i	预处理后的文件
hello.s	汇编操作后的文件
hello.o	可重定位目标文件，用于执行链接
hello	可执行目标文件
Elf.txt	可重定位文件的elf格式的文本形式
Elf1.txt	可执行文件的elf格式的文本形式