文章目录
第一章 计算机系统漫游
- 计算机系统由
硬件和系统软件
组成。 虽然系统的具体实现方式不断变化,但是系统内在的概念没有变
。- 以下将通过跟踪
hello
程序的生命周期来开始对系统的学习。
从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止。
#include<stdio.h>
int main()
{
printf("hello, world\n");
return 0;
}
- 我们将会学到:
避免数字错误。
如何避免由计算机表示数字的方式引起的奇怪的数字错误。优化C代码。
怎样通过一些小窍门来优化自己的C代码,以充分利用现代处理器和存储器系统的设计。编译器如何实现调用,以及避免缓冲区溢出。
将了解编译器是如何实现过程调用的,以及如何利用这些知识来避免缓冲区溢出错误带来的安全漏洞,这些弱点给网络和因特网软件带来了巨大的麻烦。识别和避免链接时的错误。
如何识别和避免链接时那些令人讨厌的错误,它们困扰着普通的程序员。- 学会如何编写自己的
Unix shell
、自己的动态存储分配包
,甚至于自己的Web服务器
。 - 认识
并发
来的希望和陷阱,这个主题随着单个芯片上集成了多个处理器核变得越来越重要。
1.1 信息就是 bits+上下文
源程序(源文件)
:实际上是一个由值0和1组成的位序列(bits)。8位为一字节,每个字节表示一个文本字符。
ASCII标准如下:hello.c程序的ASII码表示图。
- 只由ASCII字符构成的文件称为
文本文件
,其他文件称为二进制文件
。 - 区分不同数据对象的唯一方法是:
读到这些数据对象时的上下文
。
比如,在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。
1.2 程序被其他程序翻译成不同的格式
在Unix系统上,从源文件到目标文件的转化是由编译器驱动程序
完成的:
linux> gcc -o hello hello.c
GCC编译器驱动程序
读取源程序文件hello.c,并把它翻译成一个可执行目标文件hello。这个翻译过程可分为四个阶段完成:
-
预处理阶段:预处理器(cpp)根据以字符#开头的命令,修改原始的C程序。
比如hello.c
中第1行的#include < stdio.h>
命令告诉预处理器读取系统头文件stdio.h
的内容,并把它直接插入程序文本中。结果就得到了另一个C程序,通常 是以.i
作为文件扩展名。 -
编译阶段:编译器(ccl)将文本文件hello.i翻译成文本文件hello.s。
它包含一个汇编语言程序。该程序包含函数main的定义,如下所示:
main:
subq $8,%rsp
movl $.LC0,%edi
call puts
movl $0,%eax
addq $8,%rsp
ret
每条语句都以一种文本格式描述了一条低级机器语言指令
。
汇编语言是非常有用的,因为它为不同高级语言的不同编译器提供了通用的输出语言
。
例如,C编译器和Fortran编译器产生的输出文件用的都是一样的汇编语言。
-
汇编阶段:汇编器(as)将hello.s翻译成机器语言指令。
把这些指令打包成一种叫做可重定位目标程序(relocatable object program)的格式,并将结果保存在目标文件hello.o中。
hello.o文件是一个二进制文件,它包含的17个字节是函数main 的指令编码。 -
链接阶段:链接器(Id)就负责处理这种合并。
hello
程序调用了printf
函数,它是每个C编译器都提供的标准C库中的一个函数。printf
函数存在于一个名为printf.o
的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o
程序中。
链接器(Id)就负责处理这种合并。结果就得到hello文件,它是一个可执行目标文件 (或者简称为可执行文件),可以被加载到内存中,由系统执行。
GNU环境包括EMACS编辑器、GCC 编译器、GDB调试器、汇编器、链接器、处理二进制文件的工具以及其他一些部件。
GCC编译器已经发展到支持许多不同的语言,能够为许多不同的机器生成代码。
支持 的语言包括 C、C++、Fortran、Java、Pascal、面向对象 C 语言(Objective-C)和 Ada。
1.3 了解编译系统是如何工作的(大有裨益)
-
优化程序性能。
-
一个switch语句是否总是比一系列的if-else语句高效得多?
-
一个函数调用的开销有多大?
-
while循环比for循环更有效吗?
-
指针引用比数组索引更有效吗?
-
为什么将循环求和的结果放到一个本地变量中,会比将其放到一个通过引用传递过来的参数中,运行起来快很多呢?
-
为什么我们只是简单地重新排列一下算术表达式中的括号就能让函数运行得更快?
-
-
理解链接时出现的错误。
根据经验,一些程序错误往往都与链接器操作有关,尤其是当构建大型软件系统时。比如,- 链接器报告说它无法解析一个引用,这是什么意思?
- 静态变量和全局变量的区别是什么?
- 如果你在不同的C文件中定义了名字相同的两个全局变量会发生什么?
- 静态库和动态库的区别是什么?
- 我们在命令行上排列库的顺序有什么影响?
- 最严重的是,为什么有些链接错误直到运行时才会出现?
-
避免安全漏洞。
- 多年来,缓冲区溢出错误是造成大多数网络和Internet服务器上安全漏洞的主要原因。
- 存在这些错误是因为:很少有程序员能够理解需要 限制从不受信任的源接收数据的数量和格式。
- 学习安全编程的第一步就是:理解 数据和控制信息 存储在程序栈上的方式会引起的后果。
1.4 处理器读并解释储存在内存中的指令
在Unix系统上:
linux> ./hello
hello, world
linux>
- shell是一个
命令行解释器
,它输出一个提示符,等待输人一个命令行,然后执行这个命令。 - 如果该命令行的第一个单词不是一个内置的shell命令,那么shell就会假设这是 一个可执行文件的名字,它将加载并运行这个文件。
- 所以在此例中,shell将加载并运行 hello程序,然后等待程序终止。
- hello程序在屏幕上输出它的消息,然后终止。
- shell 随后输出一个提示符,等待下一个输人的命令行。
1.4.1 系统的硬件组成
为了理解运行hello程序时发生了什么,我们需要了解一个典型系统的硬件组织,如图所示。
-
总线(USB)
贯穿整个系统的是一组电子管道
,称作总线,它携带信息字节并负责在各个部件间传递。通常总线被设计成传送定长的字节块
,也就是字(word)。- 字中的字节数(即字长)是一 个基本的系统参数,各个系统中都不尽相同。现在的大多数机器字长要么是4个字节(32 位),要么是8个字节(64位)。
-
I/O设备
1/O(输人/输出)设备是系统与外部世界的联系通道。
我们的示例系统包括四个I/O设 备:-
作为用户输人的
键盘和鼠标
, -
作为用户输出的
显示器
, -
以及用于长期存储数据和程序的
磁盘驱动器
(简单地说就是磁盘)。 -
最开始,可执行程序
hello
就存放在磁盘上。每个I/O设备都通过一个控制器或适配器与I/O总线相连。控制器和适配器
之间的区别主要在于它们的封装方式。- 控制器是I/O设备本身或者系统的主印制电路板通常称作主板)上的芯片组。
- 而适配器则是一块插在主板插槽上的卡。
-
无论如何,它们的功能都是 在I/O总线和I/O设备之间传递信息。
-
-
主存
主存是一个临时存储设备。在处理器执行程序时,用来存放程序和数据。- 从物理上来说,主存是由一组
动态随机存取存储器(DRAM)
芯片组成的。 - 从逻辑上来说,存储器是一个线性的字节数组,每个字节都有其唯一的地址(数组索引),这些地址是从零开始的。
一般来说,组成程序的每条机器指令都由不同数量的字节构成。与C程序变量相对应的 数据项的大小是根据类型变化的。- 比如,在运行Linux的X86-64机器上,
short类型的数据需要2个字节,int和float类型需要4个字节,而long和double类型需要8个字节。
- 比如,在运行Linux的X86-64机器上,
- 从物理上来说,主存是由一组
-
处理器
中央处理单元(CPU),简称处理器,是解释(或执行)存储在主存中指令的引擎。- 处理 器的核心是一个大小为一个字的
存储设备(或寄存器),称为程序计数器(PC)
。在任何时 刻,PC都指向主存中的某条机器语言指令(即含有该条指令的地址)。
- 处理 器的核心是一个大小为一个字的
CPU在指令的要求下可能会执行这些操作。
- 加载:从主存复制一个字节或者一个字到寄存器,以覆盖寄存器原来的内容。
- 存储:从寄存器复制一个字节或者一个字到主存的某个位置,以覆盖这个位置上原 来的内容。
- 操作:把两个寄存器的内容复制到ALU, ALU对这两个字做算术运算,并将结果 存放到一个寄存器中,以覆盖该寄存器中原来的内容。
- 跳转:从指令本身中抽取一个字,并将这个字复制到程序计数器(PC)中,以覆盖 PC中原来的值。
处理器看上去是它的指令集架构的简单实现,但是实际上现代处理器使用了非常复杂的机制来加速程序的执行。因此,我们将处理器的指令集架构和处理器的微体系结构
区分开来:
指令集架构
描述的是每条机器代码指令的效果;- 而
微体系结构
描述的是处理器实际上是如何实现的。
1.4.2 运行hello程序
现在开始介绍当我们运行示例程序时到底发生了些什么:
- 初始时,shell程序执行它的指令,等待我们输入一个命令。当我们在键盘上输入字符串 “
./hello
”后,shell程序将字符逐一读入寄存器,再把它存放到内存中,如下图:
- 当我们在键盘上敲回车键时,shell程序就知道我们已经结束了命令的输入。然后 shell执行一系列指令来加载可执行的hello文件,这些指令将hello目标文件中的代码和数据从磁盘复制到主存。数据包括最终会被输出的字符串“
hello, world\n
’。
利用直接存储器存取
(DMA)技术,数据可以不通过处理器而直 接从磁盘到达主存。这个步骤如下图所示。
- 一旦目标文件hello中的代码和数据被加载到主存,处理器就开始执行hello程序的main程序中的机器语言指令。
这些指令将“hello, world\n
”字符串中的字节从主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示在屏幕上。这个步骤如下图所示。
1.5 高速缓存至关重要
这个简单的示例揭示了一个重要的问题,即系统花费了大量的时间把信息从一个地方挪到另一个地方。
- hello程序的机器指令最初是存放在磁盘上;当程序加载时,它们被复制到主存;当处理器运行程序时,指令又从主存复制到处理器。
- 相似地,数据串“hello, world/n” 开始时在磁盘上,然后被复制到主存,最后从主存上复制到显示设备。
因此,系统设计者的一个主要目标:就是使这些复制操作尽可能快地完成。
根据机械原理,较大的存储设备要比较小的存储设备运行得慢,而快速设备的造价远高于同类的低速设备。
- 比如说,一个典型系统上的磁盘驱动器可能比主存大1000倍,但是对处理器而言,从磁盘驱动器上读取一个字的时间开销要比从主存中读取的开销大1000万倍。
- 类似地,一个典型的寄存器文件只存储几百字节的信息,而主存里可存放几十亿字节。然而,处理器从寄存器文件中读数据比从主存中读取几乎要快100倍。
- 更麻烦的是,加快处理器 的运行速度比加快主存的运行速度要容易和便宜得多。
针对这种处理器与主存之间的差异,系统设计者采用了更小更快的存储设备,称为高速缓存存储器(cache memory,简称为cache或高速缓存)
,作为暂时的集结区域,存放处理器近期可能会需要的信息。如下图:
- 位于处理器芯片上的
L1高速缓存
的容量可以达到数万字节,访问速度几乎和访问寄存器文件一样快。 - 一个容量为数十万到数百万字节的更大的
L2高速缓存
通过一条特殊的总线连接到处理器。进程访问L2高速缓存的时间要比访问L1高速缓存的时间长5倍,但是这仍然比访问主存的时间快5-10倍。 - L1和L2高速缓存是用一种叫做
静态随机访问存储器(SRAM)
的硬件技术实现的。 - 比较新的、处理能力更强大的系统甚至有
三级高速缓存:Ll、L2和 L3
。
系统可以有一个很大的存储器,同时访问速度也很快,原因是利用了高速缓存的局部性原理
,即程序具有访问局部区域里的数据和代码的趋势
。通过让高速缓存里存放可能经常访问的数据,大部分的内存操作都能在快速的高速缓存中完成。
1.6 存储设备形成层次结构
存储器层次结构的主要思想是:上一层的存储器作为低一层存储器的高速缓存
。
因此, 寄存器文件就是L1的高速缓存,L1是L2的高速缓存,L2是L3的高速缓存,L3是主存的高速缓存,而主存又是磁盘的高速缓存。在某些具有分布式文件系统的网络系统中,本地磁盘就是存储在其他系统中磁盘上的数据的高速缓存。
1.7 操作系统管理硬件
当shell加载和运行hello程序时,以及hello程序输出自己的消息时,shell和hello程序都没有直接访问键盘、显示器、磁盘或者主存。取而代之的是,它们依靠操作系统提供的服务。
我们可以把操作系统看成是应用程序和硬件之间插入的一层软件
,如图所示。所有应用程序对硬件的操作尝试都必须通过操作系统。
操作系统有两个基本功能:
- (1)防止硬件被失控的应用程序滥用;
- (2)向应用程序提供简单一致的机制来控制复杂而又通常大 不相同的低级硬件设备。
操作系统通过几个 基本的抽象概念(进程、虚拟内存和文件
)来实现这两个功能。如图所示。
- 文件是I/O设备的抽象表示,
- 虚拟内存是对主存和磁盘I/O设备的抽象表示,
- 进程则是对处理器、主存和I/O设备的抽象表示。
20世纪60年代是大型、复杂操作系统盛行的年代,比如
IBM的OS/360
和Honeywell的Multics系统
。 OS/360 是历 史上最成功的软件项目之一,而 Muhics虽然持续存在了多年,却从来没有被广泛应用过。一群贝尔实验室的研究人员Ken Thompson, Dennis Ritchie、 Doug Mcll-roy和Joe Ossanna,从1969年开始在DEC PDP-7计算机上完全用机器语言编写了一个简单得多的操作系统。这个新系统中的很多思想,比如
层次文件系统、作为用户级进程的shell概念
,都是来自于Multics,只不过在一个更小、更简单的程序包里实现。1970 年,Brian Kernighan给新系统命名为“Unix
”,这也是一个双关语,暗指“Multics”的 复杂性。1973年用C重新编写其内核,1974年,Unix开始正式对外发布。贝尔实验室以慷慨的条件向学校提供源代码,所以Unix在大专院校里获得了很多支持并得以持续发展。最有影响的工作发生在20世纪70年代晚期到80年代早期,在美国加州大学伯克利分校,研究人员在一系列发布版本中
增加了虚拟内存和Internet协议
,称为Unix 4. xBSD(Berkeley Software Distribution)
。与此同时,贝尔实验室也在发布自己的版本,称为
System V Unix
。其他厂商的版本,比如Sun Microsystems的 Solaris系统
,则是从这些原始的BSD和System V版本中衍生而来。20世纪80年代中期,Unix厂商试图通过加入新的、往往不兼容的特性来使它们的程序与众不同,麻烦也就随之而来了。
为了阻止这种趋势,IEEEC(电气和电子工程师协会)开始努力标准化Unix的开发,后来由Richard Stallman命名为“
Posix
”。结果就得到了一系列的标准,称作Posix标准
。这套标准涵盖了很多方面,比如Unix系统调用的C语言接口、shell程序和工具、线程及网络编程
。最近,一个被称为“标准Unix规范”的独立标准化工作已经与Posix—起创建了统一的Unix系统标准
。这些标准化工作的结果是Unix版本之间的差异已经基本消失。
1.7.1 进程
这些假象(某程序的代码和数据是系统内存中唯一的对象)是通过进程的概念来实现的,进程是计算机科学中最重要和最成功的概念之一
。
-
进程
是操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个进程,而每个进程都好像在独占地使用硬件。 -
而
并发运行
,则是说一个进程的指令和另一个进程的指令是交错执行的。
在大多数系统中,需要运行的进程数是多于可以运行它们的 CPU个数的。传统系统在一个时刻只能执行一个程序,而先进的多核处理器同时能够执行多个程序。
无论是在单核还是多核系统中,一个CPU看上去都像是在并发地执行多个进程,这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上下文切换
。
当操作系统决定要把控制权从当前进程转移到某个新进程时,就会进行上下文切换,即保存当前进程的上下文(比如PC和寄存器文件的当前值,以及主存的内容
。)、恢复新进程的上下文,然后将控制权传递到新进程。新进程就会从它上次停止的地方开始。
示例场景中有两个并发的进程:shell进程和hello进程。
- 最开始,只有shell进程在 运行,即等待命令行上的输入。
- 当我们让它运行hello程序时,shell通过调用一个专门 的函数,即系统调用,来执行我们的请求,系统调用会将控制权传递给操作系统。
- 操作系统保存shell进程的上下文,创建一个新的hello进程及其上下文,然后将控制权传给新的hello进程。
- hello进程终止后,操作系统恢复shell进程的上下文,并将控制权传回 给它,shell进程会继续等待下一个命令行输人。
如图1-12所示,从一个进程到另一个进程的转换是由操作系统内核(kernel)管理的。内核是操作系统代码常驻主存的部分
。
- 当应用程序需要操作系统的某些操作时,比如读写文件,它就执行一条特殊的系统调用(system call)指令,将控制权传递给内核。
- 然后内核 执行被请求的操作并返回应用程序。
- 注意,
内核不是一个独立的进程。
相反,它是系统管理全部进程 所用代码和数据结构 的集合
。
1.7.2 线程
尽管通常我们认为一个进程只有单一的控制流,但是在现代系统中,一个进程实际上 可以由多个称为线程
的执行单元组成。
每个线程都运行在进程的上下文中,并共享同样的代码和全局数据
。- 由于网络服务器中对并行处理的需求,线程成为越来越重要的编程模 型,
- 因为
多线程之间比多进程之间更容易共享数据
,也因为线程一般来说都比进程更高 效。 - 当有多处理器可用的时候,多线程也是一种使得程序可以运行得更快的方法。
1.7.3 虚拟内存
虚拟内存是一个抽象概念
,它为每个进程提供了一个假象,即每个进程都在独占地使用 主存
。每个进程看到的内存都是一致的,称为虚拟地址空间
。
32bitCPU可寻址4G线性空间,每个进程都有各自独立的4G逻辑地址,其中0-3G是用户态空间,3~4G是内核空间,不同进程相同的逻辑地址会映射到不同的物理地址中。
其逻辑地址其划分如下:
各个段说明如下:
- 3G用户空间和1G内核空间
静态区域:
- text segment(代码段):包括只读存储区和文本区,其中只读存储区存储字符串常量,文本区存储程序的机器代码。
- data segment(数据段):存储程序中已初始化的全局变量和静态变量
- bss segment:存储未初始化的全局变量和静态变量(局部+全局),以及所有被初始化为0的全局变量和静态变量,对于未初始化的全局变量和静态变量,程序运行main之前时会统一清零。即未初始化的全局变量编译器会初始化为0动态区域:
- heap(堆): 当进程未调用malloc时是没有堆段的,只有调用malloc时采用分配一个堆,并且在程序运行过程中可以动态增加堆大小(移动break指针),从低地址向高地址增长。分配小内存时使用该区域。 堆的起始地址由mm_struct 结构体中的start_brk标识,结束地址由brk标识。
- memory mapping segment(映射区):存储动态链接库等文件映射、申请大内存(malloc时调用mmap函数)
- stack(栈):使用栈空间存储函数的返回地址、参数、局部变量、返回值,从高地址向低地址增长。在创建进程时会有一个最大栈大小,Linux可以通过ulimit命令指定。
- 代码段:包括只读存储区和文本区,其中只读存储区存储字符串常量,文本区存储程序的机器代码。
- 数据段:存储程序中已初始化的全局变量和静态变量
- bss 段:存储未初始化的全局变量和静态变量(局部+全局),以及所有被初始化为0的全局变量和静态变量。
- 堆区:调用new/malloc函数时在堆区动态分配内存,同时需要调用delete/free来手动释放申请的内存。
- 映射区:存储动态链接库以及调用mmap函数进行的文件映射
- 栈:使用栈空间存储函数的返回地址、参数、局部变量、返回值
图1-13所示的是Linux进程的虚拟地址空间
在Linux中,地址空间最上面的区域是 保留给操作系统中的代码和数据的
,这对所有进程来说都是一样。地址空间的底部区域存放 用户进程定义的代码和数据
。
-
程序代码和数据
。对所有的进程来说,代码是从同一固定地址开始,紧接着的是和 C全局变量相对应的数据位置。代码和数据区是直接按照可执行目标文件的内容初 始化的
,在示例中就是可执行文件hello。 -
堆
。代码和数据区后紧随着的是运行时堆。代码和数据区在进程一开始运行时就被指定了大小
,与此不同,当调用像malloc和free这样的C标准库函数时,堆可以在运行时动态地扩展和收缩
。 -
共享库
。大约在地址空间的中间部分是一块用来存放像C标准库和数学库这样的共享库的代码和数据的区域。
共享库的概念非常强大,也相当难懂。 -
栈
。位于用户虚拟地址空间顶部的是用户栈,编译器用它来实现函数调用。和堆一样,用户栈在程序执行期间可以动态地扩展和收缩。特别地,每次我们调用一个函 数时,栈就会增长;从一个函数返回时,栈就会收缩。 -
内核虚拟内存
。地址空间顶部的区域是为内核保留的。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。
相反,它们必须调用内核来执行这些 操作。
1.7.4 文件
文件就是字节序列
,仅此而已。
每个I/O设备,包括磁盘、键盘、显示器,甚至网络,都可以看成是文件。系统中的所有输人输出都是通过使用一小组称为Unix I/O的系统函数调用读写文件
来实现的。
文件这个简单而精致的概念是非常强大的,因为它向应用程序提供了一个统一的视图,来看待系统中可能含有的所有各式各样的I/O设备。
1.8 系统之间利用网络通信
从一个单独的系统来看,网络可视为一个 I/O设备
,如图1-14所示。
当系统从主存复制一串字节到网络适配器时,数据流经过网络 到达另一台机器,而不是比如说到达本地磁盘驱动器。相似地,系统可以读取从其他机器 发送来的数据,并把数据复制到自己的主存。
假设用本地主机上的telnet客户端连接远程主机上的telnet服务器。
在我们登录到远程主机并运行shell后,远端的shell就在等待接收输人命令。
此后在远端运行hello程序 包括如图1-15所示的五个基本步骤。
1.9 重要主题
在此强调几个贯穿计算机系统所有方面的重要概念。
1.9.1 Amdahl 定律
Amdahl定律
(Amdahl’slaw):对提升系统某一部分性能所带来的效果做出了简单却有见地的观察。
该定律的主要思想是:
- 当我们对系统的某个部分加速时,其对系统整体性能的影响取决于该部分的重要性和加速程度。
- 若系统执行某应用程序需要时间为 T o l d T_{old} Told。假设系统某部分所需执行时间与该时间的比例为 α \alpha α ,而该部分性能提升比例为 k k k;即该部分初始所需时间为 α T o l d \alpha T_{old} αTold,现在所需时间为 α T o l d / k \alpha T_{old} / k αTold/k。因此,总的执行时间应为
T n e w = ( 1 − α ) T o l d + ( α T o l d ) / k = T o l d [ ( 1 − a ) + a / k ] T_{new} = (1 - \alpha)T_{old} + (\alpha T_{old} )/k= T_{old}[(1- a) + a/k] Tnew=(1−α)Told+(αTold)/k=Told[(1−a)+a/k]
- 由此可以计算加速比
S
=
T
o
l
d
/
T
n
e
w
S=T_{old} / T_{new}
S=Told/Tnew:
S = 1 ( 1 − a ) + a / k S=\frac{1}{(1- a) + a/k} S=(1−a)+a/k1
举个例子:
- 系统的某个部分初始耗时比例为60% ( α = 0.6 \alpha=0.6 α=0.6),其加速比例因子为 k k k( k = 3 k=3 k=3)。则我们可以获得的加速比为 1 / [ 0.4 + 0.6 / 3 ] = 1.67 1/[0. 4+0. 6/3] =1. 67 1/[0.4+0.6/3]=1.67倍。虽然我们对系统的一个主要部分做出了重大改进,但是获得的系统加速比却明显小于这部分的加速比。
- 这就是 Amdahl定律的主要观点——
要想显著加速整个系统,必须提升全系统中相当大的部分的速度。
- Amdahl定律一个有趣的特殊情况是:考虑
k
k
k 趋向于无穷大时的效果。这就意味着,我们可以取系统的某一部分将其加速到一个点,在这个点上,这部分花费的时间可以忽略不计。于是我们得到:
S ∞ = 1 ( 1 − a ) S_ \infty=\frac{1}{(1- a)} S∞=(1−a)1
如果60%的系统能够加速到不花时间的程度,我们获得的净加速比将仍只有 1 / 0.4 = 2.5 X 1/0. 4 = 2. 5X 1/0.4=2.5X。
性能提升最好的表示方法就是用比例的形式 S = T o l d / T n e w S=T_{old} / T_{new} S=Told/Tnew,其中, T o l d T_{old} Told 为原始系统所需时间, T n e w T_{new} Tnew 为修改后的系统所需时间。如果有所改进,则比值应大于1。我们用后缀 “X” 来表示比例,因此,“2.2X”读作“2.2倍”。
1.9.2 并发和并行
数字计算机的整个历史中,有两个需求是驱动进步的持续动力:
- 一个是我们想要计算机做得更多,
- 另一个是我们想要计算机运行得更快。
当处理器能够同时做更多的事情时,这两个因素都会改进。
- 我们用的术语
并发(concurrency)
是一个通用的概念,指一个同时具有多个活动的系统; - 而术语
并行(parallelism)
指的是用并发来使一个系统运行得更快。
并行可以在计算机系统的多个抽象层次上运用。在此,我们按照系统层次结构中由高到低的顺序重点强调三个层次。
1 线程级并发
构建在进程这个抽象之上,我们能够设计出同时有多个程序执行的系统,这就导致了并发
。使用线程,我们甚至能够在一个进程中执行多个控制流
。
- 传统意义上,这种并发执行只是模拟出来的,是通过使一台计算机在它正在执行的进程间快速切换来实现的。
- 当许多人想要从一个Web服务器获取页面时。它还允许一个用户同时从事多个任务。例如,在一个窗口中开启Web浏览器,在另一窗口中运行字处理器,同时又播放音乐。
在以前,即使处理器必须在多个任务间切换,大多数实际的计算也都是由一个处理器来完成的。这种配置称为单处理器系统。
当构建一个由单操作系统内核控制的多处理器组成的系统时,我们就得到了一个多处理器系统。
图1-17描述的是一个典型多核处理器的组织结构。
超线程,有时称为同时多线程(simultaneous multi-threading)
,是一项允许一个CPU 执行多个控制流的技术
。
- 它涉及CPU某些硬件有多个备份,比如程序计数器和寄存器文件,而其他的硬件部分只有一份,比如执行浮点算术运算的单元。
- 常规的处理器需要大约 20 000个时钟周期做不同线程间的转换,而超线程的处理器可以在单个周期的基础上决定要执行哪一个线程。
- 举例来说, Intel Core i7处理器可以让每个核执行两个线程,所以一个4核的系统实际上可以
并行
地执行8个线程。
- 举例来说, Intel Core i7处理器可以让每个核执行两个线程,所以一个4核的系统实际上可以
多处理器的使用可以从两方面提高系统性能。
- 首先,它减少了在执行多个任务时模拟并发的需要。正如前面提到的,即使是只有一个用户使用的个人计算机也需要并发地执行多个活动。
- 其次,它可以使应用程序运行得更快,当然,这必须要求程序是以多线程方式 来书写的,这些线程可以并行地高效执行。
多核和超线程系统的出现才极大地激发了一种愿望,即找到书写应用程序的方法利用硬件开发线程级并行性。
2 指令级并行
在较低的抽象层次上,现代处理器可以同时
执行多条指令的属性称为指令级并行
。
- 早期的微处理器,如1978年的Intel 8086,需要多个(通常是3-10个)时钟周期来执行一条指令。
- 最近的处理器可以保持每个时钟周期2-4条指令的执行速率。其实每条指令从开始到结束需要长得多的时间,大约20个或者更多周期,但是处理器使用了非常多的聪明技巧来同时处理多达100条指令。
流水线(pipelining)的使用
。在 流水线中,将执行一条指令所需要的活动划分成不同的步骤,将处理器的硬件组织成一系列的阶段,每个阶段执行一个步骤。这些阶段可以并行地操作,用来处理不同指令的不同 部分。我们会看到一个相当简单的硬件设计,它能够达到接近于一个时钟周期一条指令的执行速率。
如果处理器可以达到比一个周期一条指令更快的执行速率,就称之为超标量(superscalar)处理器
。大多数现代处理器都支持超标量操作。
3 单指令、多数据并行(SIMD)
在最低层次上,许多现代处理器拥有特殊的硬件,允许一条指令产生多个可以并行执行的操作,这种方式称为单指令、多数据,即SIMD并行
。
- 例如,较新几代的Intel和 AMD处理器都具有并行地对8对单精度浮点数(C数据类型float)做加法的指令。
- 提供这些SIMD指令多是为了提高处理影像、声音和视频数据应用的执行速度。
- 虽然有些编译器会试图从C程序中自动抽取SIMD并行性,但是更可靠的方法是用编译器支持的特殊的向量数据类型来写程序,比如GCC就支持向量数据类型。
1.9.3 计算机系统中抽象的重要性
抽象的使用是计算机科学中最为重要的概念之一。
我们已经介绍了计算机系统中使用的几个抽象,如图1-18所示。
- 在处理器里,指令集架构提供了对实际处理器硬件的抽象。
使用这个抽象,机器代码程序表现得就好像运行在一个一次只执行一条指令的处理器上。 - 底层的硬件远比抽象描述的要复杂精细,它并行地执行多条指令,但又总是与那个简单有序的模型保持一致。只要执行模型一样,不同的处理器实现也能执行同样的机器代码,而又提供不同的开销和性能。
在学习操作系统时,我们介绍了三个抽象:文件是对I/O设备的抽象,虚拟内存是对程序主存和I/O的抽象,而进程是对一个正在运行的程序的抽象。我们再增加一个新的抽象:
- 虚拟机,它提供对整个计算机的抽象,包括操作系统、处理器和程序。
- 因为一些计算机必须能够运行 为不同的操作系统(例如,Microsoft Windows、MacOS和Linux) 或同一操作系统的不同版本设计的程序。
1.10 小结
- 计算机系统是由硬件和系统软件组成的,它们共同协作以运行应用程序。
- 计算机内部的信息被表示为一组组的位,它们依据上下文有不同的解释方式。
- 程序被其他程序翻译成不同的形式,开始时是 ASCII文本,然后被编译器和链接器翻译成二进制可执行文件。
- 处理器读取并解释存放在主存里的二进制指令。
- 因为计算机花费了大量的时间在内存、I/O设备和 CPU寄存器之间复制数据,所以将系统中的存储设备划分成层次结构——CPU寄存器在顶部,接着是多层的硬件高速缓存存储器、DRAM主存和磁盘存储器。
- 在层次模型中,位于更高层的存储设备比低层的存储设备要更快,单位比特造价也更高。层次结构中较高层次的存储设备可以作为较低层次设备的高速 缓存。通过理解和运用这种存储层次结构的知识,程序员可以优化C程序的性能。
- 操作系统内核是应用程序和硬件之间的媒介。它提供三个基本的抽象:1)文件是对I/O设备的抽象; 2)虚拟内存是对主存和磁盘的抽象;3)进程是处理器、主存和I/O设备的抽象。
- 最后,网络提供了计算机系统之间通信的手段。从特殊系统的角度来看,网络就是一种I/O设备。