系统架构师--第1章计算机组成与体系结构-1.2 存储器系统

东少子鹏

于 2024-07-31 09:44:37 发布

阅读量308

点赞数 17

分类专栏：高级系统架构师文章标签：系统架构

本文链接：https://blog.csdn.net/m0_74957207/article/details/140813932

版权

高级系统架构师专栏收录该内容

6 篇文章 0 订阅

订阅专栏

1.2 存储器系统

存储器是用来存放程序和数据的部件，它是一个记忆装置，也是计算机能够实现“存储程序控制”的基础。在计算机系统中，规模较大的存储器往往分成若干级，称为存储器系统。传统的存储器系统一般分为高速缓冲存储器（Cache）、主存、辅存三级。主存可由 CPU 直接访问，存取速度快，但容量较小，一般用来存放当前正在执行的程序和数据。辅存设置在主机外部，它的存储容量大，价格较低，但存取速度较慢，一般用来存放暂时不参与运行的程序和数据，CPU 不可以直接访问辅存，辅存中的程序和数据在需要时才传送到主存，因此它是主存的补充和后援。当 CPU 速度很高时，为了使访问存储器的速度能与 CPU 的速度相匹配，又在主存和 CPU 间增设了一级 Cache。Cache 的存取速度比主存更快，但容量更小，用来存放当前最急需处理的程序和数据，以便快速地向 CPU 提供指令和数据。因此，计算机采用多级存储器体系，确保能够获得尽可能高的存取速率，同时保持较低的成本。多层级的存储体系之所以能用低投入换来较高的存取速率，得益于局部性原理。局部性原理是指程序在执行时呈现出局部性规律，即在一较短的时间内，程序的执行仅局限于某个部分。相应地，它所访问的存储空间也仅局限于某个区域。程序局部性包括时间局部性和空间局部性，时间局部性是指程序中的某条指令一旦执行，不久以后该指令可能再次执行。产生时间局部性的典型原因是由于程序中存在着大量的循环操作；空间局部性是指一旦程序访问了某个存储单元，不久以后，其附近的存储单元也将被访问，即程序在一段时间内所访问的地址可能集中在一定的范围内，其典型情况是程序顺序执行。

存储器中数据常用的存取方式有顺序存取、直接存取、随机存取和相联存取四种。

（1）顺序存取：存储器的数据以记录的形式进行组织。对数据的访问必须按特定的线性顺序进行。磁带存储器采用顺序存取的方式。

（2）直接存取：与顺序存取相似，直接存取也使用一个共享的读写装置对所有的数据进行访问。但是，每个数据块都拥有唯一的地址标识，读写装置可以直接移动到目的数据块所在位置进行访问。存取时间也是可变的。磁盘存储器采用直接存取的方式。

（3）随机存取：存储器的每一个可寻址单元都具有自己唯一的地址和读写装置，系统可以在相同的时间内对任意一个存储单元的数据进行访问，而与先前的访问序列无关。主存储器采用随机存取的方式。

（4）相联存取：相联存取也是一种随机存取的形式，但是选择某一单元进行读写是取决于其内容而不是其地址。与普通的随机存取方式一样，每个单元都有自己的读写装置，读写时间也是一个常数。使用相联存取方式，可以对所有的存储单元的特定位进行比较，选择符合条件的单元进行访问。为了提高地址映射的速度，Cache 采取相联存取的方式。

1.2.1 主存储器

主存用来存放计算机运行期间所需要的程序和数据，CPU 可直接随机地进行读/写。主存具有一定容量，存取速度较高。由于 CPU 要频繁地访问主存，所以主存的性能在很大程度上影响了整个计算机系统的性能。根据工艺和技术不同，主存可分为随机存取存储器和只读存储器。

1.随机存取存储器

随机存取存储器（RandomAccessMemory，RAM）既可以写入也可以读出，但断电后信息无法保存，因此只能用于暂存数据。

RAM 又可分为 DRAM（DynamicRAM，动态 RAM）和 SRAM（StaticRAM，静态 RAM）两种，DRAM 的信息会随时间逐渐消失，因此需要定时对其进行刷新维持信息不丢失；SRAM 在不断电的情况下信息能够一直保持而不会丢失。 DRAM 的密度大于 SRAM 且更加便宜，但 SRAM 速度快，电路简单（不需要刷新电路），然而容量小，价格高。

2.只读存储器

只读存储器（ReadOnlyMemory，ROM）可以看作 RAM 的一种特殊形式，其特点是：存储器的内容只能随机读出而不能写入。这类存储器常用来存放那些不需要改变的信息。由于信息一旦写入存储器就固定不变了，即使断电，写入的内容也不会丢失，所以又称为固定存储器。ROM 一般用于存放系统程序 BIOS（BasicInputOutputSystem，基本输入输出系统）。

3.内存编址方法

在计算机系统中，存储器中每个单元的位数是相同且固定的，称为存储器编址单位(也就是每个内存地址可以存储多少bit的信息,addbyxxk)。

不同的计算机，存储器编址的方式不同，主要有字编址和字节编址。

内存一般以字节（8 位）为单位，或者以字为单位（字的长度可大可小，例如16 位或者32 位等，在这类试题中，一般会给出字的大小）。

例如，内存地址从 AC000H 到 C7FFFH，则共有 C7FFFFH-AC000H=1BFFFH(还需要+1) 个地址单元（转换为十进制后，为 112KB）。如果该内存地址按字（16bit）编址，则共有 112KB*16 位(容量)。假设该内存由 28 片存储器芯片构成，已知构成此内存的芯片每片有 16KB 个存储单元，则该芯片每个存储单元存储（112KB*16）/（28*16KB）=4位。

1.2.2 辅助存储器

1．磁带存储器是一种顺序存取的设备，其特点包括：存取时间较长，但存储容量大，便于携带，价格便宜。磁带应用的场景越来越少，目前主要用于资料的归档保存。

2．硬盘存储器在硬盘中，信息分布呈以下层次：记录面、圆柱面、磁道和扇区，如图 1-2 所示。

一台硬盘驱动器中有多个磁盘片，每个盘片有两个记录面，每个记录面对应一个磁头，所以记录面号就是磁头号，如图 1-2（a）所示。所有的磁头安装在一个公用的传动设备或支架上，磁头一致地沿盘面径向移动，单个磁头不能单独地移动。在记录面上，一条条磁道形成一组同心圆，最外圈的磁道为 0 号，往内则磁道号逐步增加，如图 1-2（b）所示。在一个盘组中，各记录面上相同编号（位置）的各磁道构成一个柱面，如图 1-2（c）所示。

若每个磁盘片有 m 个磁道，则该硬盘共有 m 个柱面。引入柱面的概念是为了提高硬盘的存储速度。当主机要存入一个较大的文件时，若一条磁道存不完，就需要存放在几条磁道上。这时，应首先将一个文件尽可能地存放在同一柱面中。如果仍存放不完，再存入相邻的柱面内。

通常将一条磁道划分为若干个段，每个段称为一个扇区或扇段，每个扇区存放一个定长信息块（例如，512 个字节），如图 1-2（b）所示。一条磁道划分多少扇区，每个扇区可存放多少字节，一般由操作系统决定。磁道上的扇区编号从 1 开始，不像磁头或柱面编号从 0 开始。

在磁盘上进行信息的读写时，首先需要定位到目标磁道，这个过程称之为寻道，寻道所消耗的时间称为寻道时间，定位到目标磁道后，需要定位到目标扇区，此过程通过旋转盘片完成，平均旋转半圈可到目标位置。

故磁盘访问时间为：

磁盘访问时间（存取时间） = 寻道时间+旋转延迟时间

1.2.3 Cache 存储器

Cache 的功能是提高 CPU 数据输入输出的速率，突破所谓的“冯•诺依曼瓶颈”，即 CPU 与存储系统间数据传送带宽限制。高速存储器能以极高的速率进行数据访问，但因其价格高昂，如果计算机的内存完全由这种高速存储器组成，则会大大增加计算机的成本。通常在 CPU 和内存之间设置小容量的 Cache。Cache 容量小但速度快，内存速度较低但容量大，通过优化调度算法，系统的性能会大大改善，仿佛其存储系统容量与内存相当而访问速度近似 Cache。 Cache 通常采用相联存储器（ContentAddressableMemory，CAM）。CAM 是一种基于数据内容进行访问的存储设备。当对其写入数据时，CAM 能够自动选择一个未用的空单元进行存储；当要读出数据时，不是给出其存储单元的地址，而是直接给出该数据或者该数据的一部分内容，CAM 对所有存储单元中的数据同时进行比较，并标记符合条件的所有数据以供读取。由于比较是同时、并行进行的，所以，这种基于数据内容进行读写的机制，其速度比基于地址进行读写的方式要快很多。

1．Cache 基本原理

使用 Cache 改善系统性能的依据是程序的局部性原理。根据程序的局部性原理，最近的、未来要用的指令和数据大多局限于正在用的指令和数据，或是存放在与这些指令和数据位置上邻近的单元中。这样，就可以把目前常用或将要用到的信息预先放在 Cache 中。当 CPU 需要读取数据时，首先在 Cache 中查找是否有所需内容，如果有，则直接从 Cache 中读取；若没有，再从内存中读取该数据，然后同时送往 CPU 和 Cache。如果 CPU 需要访问的内容大多都能在 Cache 中找到（称为访问命中），则可以大大提高系统性能。

如果以 h 代表对 Cache 的访问命中率（“1-h”称为失效率，或者称为未命中率），t1 表示 cache 的周期时间，t2 表示内存的周期时间，以读操作为例，使用“Cache+主存储器” 的系统的平均周期为 t3。

则： t3 =t1′h+t2′(1-h)

系统的平均存储周期与命中率有很密切的关系，命中率的提高即使很小也能导致性能上的较大改善。

例如，设某计算机主存的读/写时间为 l00ns，有一个指令和数据合一的 Cache，已知该 Cache 的读/写时间为 10ns，取指令的命中率为 98%，取数的命中率为 95%。在执行某类程序时，约有 1/5 指令需要存/取一个操作数。假设指令流水线在任何时候都不阻塞，则设置 Cache 后，每条指令的平均访存时间约为：

(2%′100ns+98%′10ns) + 1/5′(5%′100ns+95%′10ns) =14.7ns

2．映射机制

当 CPU 发出访存请求后，存储器地址先被送到 Cache 控制器以确定所需数据是否已在 Cache 中，若命中则直接对 Cache 进行访问。这个过程称为 Cache 的地址映射（映像）。在 Cache 的地址映射中，主存和 Cache 将均分成容量相同的块（页）。

常见的映射方法有直接映射、全相联映射和组相联映射。

（1）直接映像

直接映像方式以随机存取存储器作为 Cache 存储器，硬件电路较简单。在进行映像时，主存地址被分成三个部分，从高到低依次为：区号、页号以及页内地址，如图 1-3 所示。

在本例中，内存容量为 1GB，Cache 容量为 8MB，页面的大小为 512KB。直接映像中，先分区，再分页。一个区的大小就是 Cache 容量的大小，所以一共分：1GB/8MB=128 个区，区号 7 位。每个区分：8MB/512KB=16 个页，所以页号为 4 位。

在直接映像方式中，每个主存页只能复制到某一固定的 Cache 页中，如图 1-4 所示。直接映像方式的映像规律是：主存中每个区的第 0 页，只能进入到 Cache 的第 0 页。即：若当前时刻 Cache 中 0 号页已被占据，而 1-15 号页空闲，现在要将 1 区第 0 页（即内存的 16 页）调入 Cache 是会发生冲突的。所以直接映像的块冲突率非常高。

在 Cache 中，为每一个页设立一个 Cache 标记，该标记用于识别当前的 Cache 块来自于哪个内存页。直接映像中，由于每个区的 N 号页，都必须进入到 Cache 的 N 号页，所以只需要记录区号即可。所以此时标记位的长度是 7 位。

直接映像方式的优点是比较容易实现，缺点是不够灵活，有可能使 Cache 的存储空间得不到充分利用。

（2）全相联映像

全相联映像使用相联存储器组成的 Cache 存储器。在全相联映像方式中，主存的每一页可以映像到 Cache 的任一页。如果淘汰 Cache 中某一页的内容，则可调入任一主存页的内容，因而较直接映像方式灵活。

在全相联映像方式中，主存地址分为两个部分，分别为地址部分（主存页标记）和数据部分（页内地址）。数据部分用于存放数据，而地址部分则存放该数据的存储器地址。如图 1-5 所示。

当进行映像时，在我们给定的例子中，当程序访存时，则高 11 位给出主存页号，低 19 位给出页内地址。因为每个 Cache页可映像到2048个主存页中的任一页，所以每页的 Cache 标记也需要 11 位，以表明它现在所映像的主存页号。因此，Cache 标记信息位数增加，比较逻辑成本随之增加。

在全相联映像方式中，主存地址不能直接提取 Cache 页号，而是需要将主存页标记与 Cache 各页的标记逐个比较，直到找到标记符合的页（访问 Cache 命中），或者全部比较完后仍无符合的标记（访问 Cache 失败）。因此这种映像方式速度很慢，失掉了高速缓存的作用，这是全相联映像方式的最大缺点。如果让主存页标记与各 Cache 标记同时比较，则成本又太高。

全相联映像方式因比较器电路难于设计和实现，只适用于小容量 Cache。

（3）组相联映像

组相联映像（页组映像）介于直接映像和全相联映像之间，是这两种映像的一种折衷方案。全相联映像方式以页为单位，可自由映像，没有固定的对应关系。直接映像方式中，主存分组，主存组内的各页与 Cache 的页之间采取的是固定的映像关系，但各组均可映像到 Cache 中。在组相联映像方式中，主存与 Cache 都分组，主存中一个组内的页数与 Cache 的分组数相同，如图 1-7 所示。

在图1-7给出的例子中，主存分128个区，每个区8个组，每个组2个页。组相联映像方式的主存地址组织如图1-8所示。

组相联映像的规则是：主存中的组与 Cache 的组形成直接映像关系，而每个组内的页是全相联映像关系。如主存1区0页，他在 0组中，所以只能进入Cache的0组中，至于进入到Cache的0组0页，还是0组1页，并无强制要求，可任意放置。

在组相联映像中，Cache 中每一页的标记位长度为8位，因为此时除了要记录区号，还得记录组号，即区号7位加组号1位等于8位。

容易看出，如果Cache中每组只有一页，则组相联映像方式就变成了直接映像方式。如果Cache 中每组页数为16页（即Cache只分一组），则就是全相联映像。因此，在具体设计组相联映像时，可以根据设计目标选取某一折衷值。

在组相联映像中，由于Cache中每组有若干可供选择的页，因而它在映像定位方面较直接映像方式灵活；每组页数有限，因此付出的代价不是很大，可以根据设计目标选择组内页数。

为保障性能，内存与 Cache 之间的映射往往采用硬件完成，所以 Cache 对于程序员而言是透明的，程序员编程时，完全不用考虑 Cache。

3．替换算法

当Cache 产生了一次访问未命中之后，相应的数据应同时读入CPU和Cache。但是当 Cache 已存满数据后，新数据必须替换（淘汰）Cache中的某些旧数据。最常用的替换算法有以下三种：（1）随机算法。

这是最简单的替换算法。随机法完全不管 Cache 块过去、现在及将来的使用情况，简单地根据一个随机数，选择一块替换掉。

（2）先进先出（FirstInandFirstOut，FIFO）算法。按调入 Cache 的先后决定淘汰的顺序，即在需要更新时，将最先进入 Cache 的块作为被替换的块。这种方法要求为每块做一记录，记下它们进入 Cache 的先后次序。这种方法容易实现，而且系统开销小。其缺点是可能会把一些需要经常使用的程序块（如循环程序）替换掉。

（3）近期最少使用（LeastRecentlyUsed，LRU）算法。LRU 算法是把 CPU 近期最少使用的块作为被替换的块。这种替换方法需要随时记录 Cache 中各块的使用情况，以便确定哪个块是近期最少使用的块。LRU 算法相对合理，但实现起来比较复杂，系统开销较大。通常需要对每一块设置一个称为“年龄计数器”的硬件或软件计数器，用以记录其被使用的情况。

4．写操作

因为需要保证缓存在 Cache 中的数据与内存中的内容一致，相对读操作而言，Cache 的写操作比较复杂，常用的有以下几种方法。

（1）写直达（writethrough）。当要写 Cache 时，数据同时写回内存，有时也称为写通。当某一块需要替换时，也不必把这一块写回到主存中去，新调入的块可以立即把这一块覆盖掉。这种方法实现简单，而且能随时保持主存数据的正确性，但可能增加多次不必要的主存写入，会降低存取速度。

（2）写回（writeback）。CPU 修改 Cache 的某一块后，相应的数据并不立即写入内存单元，而是当该块从 cache 中被淘汰时，才把数据写回到内存中。在采用这种更新策略的 cache 块表中，一般有一个标志位，当一块中的任何一个单元被修改时，标志位被置“1”。在需要替换掉这一块时，如果标志位为“1”，则必须先把这一块写回到主存中去之后，才能再调入新的块；如果标志位为“0”，则这一块不必写回主存，只要用新调入的块覆盖掉这一块即可。这种方法的优点是操作速度快，缺点是因主存中的字块未随时修改而有可能出错。

（3）标记法。对 Cache 中的每一个数据设置一个有效位。当数据进入 Cache 后，有效位置“1”；而当 CPU 要对该数据进行修改时，数据只需写入内存并同时将该有效位置“0”。当要从 Cache 中读取数据时需要测试其有效位，若为“l”则直接从 Cache 中取数，否则，从内存中取数。

东少子鹏

关注

17
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
系统架构师--第1章计算机组成与体系结构-1.2 存储器系统

存储器是用来存放程序和数据的部件，它是一个记忆装置，也是计算机能够实现“存储程序控制”的基础。在计算机系统中，规模较大的存储器往往分成若干级，称为存储器系统。传统的存储器系统一般分为高速缓冲存储器（Cache）、主存、辅存三级。主存可由 CPU 直接访问，存取速度快，但容量较小，一般用来存放当前正在执行的程序和数据。辅存设置在主机外部，它的存储容量大，价格较低，但存取速度较慢，一般用来存放暂时不参与运行的程序和数据，CPU 不可以直接访问辅存，辅存中的程序和数据在需要时才传送到主存，因此它是主存的
复制链接

扫一扫