注:以下所有内容均来自开源学习组织DataWhale
1. 编译系统的工作流程
1 #include <stdio.h>
2
3 int main(){
4 printf(” hello , world ”);
5 return 0;
6 }
通过 gcc -o hello hello.c
生成可执行程序的工作流称如下:
- 预处理(
hello.c
→ \rightarrow →hello.i
) :根据#读取头文件中内容直接插入到源程序中,得到另外一个C程序 - 编译(
hello.i
→ \rightarrow →hello.s
):词法分析、语法分析、语义分析、中间代码生成及优化 - 汇编(
hello.s
→ \rightarrow →hello.o
):将汇编程序hello.s
翻译成机器指令,打包并重定位hello.o
- 链接(
hello.o
→ \rightarrow →hello可执行文件
):hello程序中调用了printf
函数,链接器负责把printf
所在文件printf.o
与hello.o
进行合并,最后得到hello可执行文件
2. 硬件架构
2.1 CPU(Central Processing Unit,处理器)
包含PC(Program Count,程序计数器)、寄存器堆(Register file)、ALU(Arithmatic/logic Unit,算数/逻辑计算单元)三部分
-
PC:4 byte / 8 byte的存储空间,存放某一条指令的地址。处理器不断地执行PC指向的指令。
-
寄存器:临时存放数据的空间。
-
ALU:计算速度极快,专攻算数与逻辑计算,计算机核心部分。
2.2 内存
处理器执行程序时,内存主要存放程序指令及数据。
2.3 总线
内存和处理器间通过总线进行数据传递。总线通常是固定长度的字节块,即字(word),一个字4 / 8byte。
2.4 输入输出设备
每一个输入输出设备都通过一个控制器或者适配器与IO总线连接。
3 程序执行流程
- 输入“./hello”字符串,shell程序会将输入的字符逐一读入寄存器,处理器把hello这个字符串放入内存
- 按下回车后,shell执行一系列指令加载可执行文件hello
- 这些指令将hello文件中的数据(即“hello, world\n”)和代码从磁盘复制到内存,复制过程利用DMA技术,可以不经过处理器,从磁盘直接到达内存
4.当hello中的代码和数据加载到内存后,处理器开始执行main函数中的代码,hello中只有一个打印功能 - CPU将“hello, world\n”字符串从内存复制到寄存器,再从寄存器复制到显示器
4 存储设备的层次结构
通常存储容量越小,速度越快,价格越高,上一层存储设备是下一层存储设备的告诉缓存。
5 操作系统管理硬件
- 文件是对IO设备的抽象
- 虚拟内存是对内存和磁盘IO的抽象
- 进程是对处理器、内存和IO设备的抽象
5.1 进程
假如只有两个并发的进程:shell进程和hello进程。
- 一开始只有shell进程在运行
- hello通过shell被加载后,系统调用会将控制权从shell传递给操作系统,操作系统保留shell的上下文,创建一个新的hello进程及其上下文,并将控制权转交给新的hello进程
- hello进程执行完,操作系统会回复shell进程的上下文,并把控制权交给shell,shell等待下一个命令的输入
- 上下文即进程运行所需的所有状态信息,如当前PC和寄存器的值,以及内存中的内容等
一个进程由多个线程组成,每个线程都运行在进程的上下文中,共享代码和数据。
5.2 虚拟内存
操作系统为每个进程提供了一个假象,就是每个进程都在独自占用整个内存空间,每个进程看到的内存都是一样的,我们称之为虚拟地址空间。
从下至上依次:
存放程序代码和数据区域 → \rightarrow → 堆 → \rightarrow → 共享库存放区域 → \rightarrow → 用户栈 → \rightarrow → 内核保留区域
*注:存放程序代码和数据的内容由可执行文件加载而来;C语言里malloc申请区域在堆中;栈的增长方向是由高地址到低地址;内核保留区域对应用程序不可见
5.3 文件
- Linux系统的哲学思想:一切皆文件。
6 定律
任务(task)
:并行计算所处理的对象
工作量(workload)
:处理某任务的所需的各种开销的总和
处理器(processor)
:并行计算中所使用的最基本的处理器单元
执行率(execution rat)
:每个处理器单位时间内能完成的工作量
执行时间(execution time)
:处理某任务所需的时间
加速比(scalability)
:当处理器个数增多时,完成某固定工作量任务所需执行时间的减少倍数
理想加速比(ideal scalability)
:处理器个数增多的比例
并行效率(parallel efficiency)
:加速比 ÷ 理想加速比 × 100%
6.1 阿姆达尔定律
记 α ∈ [0, 1] 是某任务无法并行处理部分所占的比例. 假设该任务的工作量固定,则对任意 n 个处理器,相比于 1 个处理器,能够取得的加速比满足:
S
(
n
)
<
1
α
\normalsize S(n) < \frac{1}{\alpha}
S(n)<α1
6.2 古斯塔法森定律
记 α ∈ [0, 1] 是某任务无法并行处理部分所占的比例. 假设该任务的工作量可以随着处理器个数缩放,从而保持处理时间固定. 则对任意 n 个处理器,相比于 1 个处理器,能够取得的加速比 S (n) 不存在上界.
6.3 孙-倪定律
记 α 是某任务无法并行处理部分所占的比例. 假设该任务的可并行部分随着处理器个数 n 按照因子 G(n) 缩放,则对任意 n,相比于 1 个处理器,能够取得的加速比 $ S^*(n) $ 满足
S
∗
(
n
)
=
α
+
(
1
−
α
)
G
(
n
)
α
+
(
1
−
α
)
G
(
n
)
n
\normalsize S^*(n) = \frac{\alpha + (1-\alpha) G(n)}{\alpha + (1-\alpha)\frac{G(n)}{n}}
S∗(n)=α+(1−α)nG(n)α+(1−α)G(n)
7 获得更高的计算能力的方法
- 线程级并发
- 指令级并行
- 单指令多数据并行