存储器层次结构与高速缓存(程序性能优化探讨）

最新推荐文章于 2024-09-13 09:30:00 发布

涤生（码忙）

最新推荐文章于 2024-09-13 09:30:00 发布

阅读量1.1k

点赞数 1

分类专栏：计算机系统

本文链接：https://blog.csdn.net/supportUAT/article/details/102472508

版权

计算机系统专栏收录该内容

2 篇文章 0 订阅

订阅专栏

一、存储技术

计算机技术的成功很大程度上源自于存储技术的巨大进步。早起的计算机只有几千字的随机访问存储器。最早的IBM PC甚至于没有硬盘。1982年引入的IBM PC-XT 有10M字节的磁盘。到2015年，典型的计算机已经有3000000倍于PC-XT的磁盘存储，而且磁盘的容量以每年加倍的速度增长

随机访问存储器分静态存储SRAM、动态存储DRAM,两者都属于易失性存储器，非易失性存储器致使断电后，任然保存着信息。如磁盘、固态硬盘等

二、计算机程序的局部性原理

局部性通常有两种不同的形式：时间局部性和空间局部性。1）、具有良好时间局部性的程序中，被引用过一次的内存位置很有可能在不远的将来再被多次引用。2）、在一个具有良好空间局部性的程序中，如果一个内存位置被引用了一次，那么程序很可能在不远的将来引用附近的一个内存位置。

从硬件层面，局部性原理允许计算机设计者通过引用称为高速缓存存储器的小而快速的存储器来保存最近被引用的指令和数据项，从而提高对主存的访问速度。

从操作系统层面，局部性原理允许系统使用主存作为虚拟地址空间最近被引用块的高速缓存。

从程序的设计层面，Web浏览器将最近被引用的文档放在本地磁盘上，利用的是时间局部性

三、存储器层次结构

存储技术：不同存储技术的访问时间差异很大。速度较快的技术每字节的成本要比速度慢的技术高，而且容量较小。CPU和主存之间的速度差距在增大

计算机软件：一个编写良好的程序倾向于展示出良好的局部性

存储器层次结构中，从高层往底层走，存储设备变得更慢，更便宜和更大

四、存储器层次结构中的缓存

一般而言，高速缓存是一个小而快速的存储设备，它作为存储在更大、也更慢的设备中的数据对象的缓冲区域。使用高速缓存的过程称为缓存caching

存储器层次结构的中心思想是，对于每个k,位于K层的更快更小的存储设备作为位于K+1层的更大更慢的存储设备的缓存。存储层次结构中缓存的一般性概念，存储器被划分成连续的数据对象组块(chunk)，称为块(block)。每个块都有一个唯一的地址和名字，使之区别于其他的块。数据总是以块大小为传送单元在K层和K+1层之间来回复制

接下来我们一起探讨缓存的命中、不命中和缓存如何管理

1）、缓存命中

当程序需要K+1层的某个数据对象d时，它首先在当前存储的K层的一个块中查找d,如果d刚好缓存在K层中，那么久是我们所说的缓存命中(cache hit)。该程序直接从K层读取d，根据存储器层次结构的性质，这要比从K+1层读取d更快。

2）、缓存不命中

如果K层中没有缓存数据对象d，那么就是我们所说的缓存不命中(cache miss)。当发生缓存不命中是，K层的缓存从K+1层缓存中取出包含d的那个块，如果K层的缓存已经满了，就需要覆盖现存的一个块。缓存的替换策略有随机替换策略和最近最少被使用替换策略（LRU）。缓存不命中的种类：冷不命中、冲突不命中、容量不命中

冷不命中只是瞬间存在，原因为缓存中没有数据。冲突不命中，则是放置策略的严格限制导致，K+1层的多个块会映射到K的同一个块。容量不命中则是工作集的数据大小大于缓存大小导致

3）、缓存管理

编译器管理寄存器文件，缓存层次结构的最高层

L1、L2、L3层的缓存完全是由内置的缓存中的硬件逻辑来管理

在一个有虚拟内存的系统中，DRAM主存作为存储在磁盘上的数据块的缓存，是由操作系统软件和CPU上的地址翻译硬件共同管理

对于一个具有像AFS这样的分布式文件系统的机器来说，本地磁盘作为缓存，他是由运行在本地机器上的AFS客户端进程管理

五、高速缓存存储器

5.1、通用的高速缓存存储器组织结构

在讨论之前，我们再来确认一个老生常谈的问题，我常说：“32位机最大可访问4GB的地址空间”，啥意思？首先，32位是CPU的一个参数，指CPU总线的数据宽度。32位CPU顾名思义就是拥有32bit的总线数据宽度，一次操作最大可执行32位的计算。回忆下之前我们讲过的32位乘法，由于乘法的结果有可能大于32位，因此会用两个32位变量进行保存。

那么，当CPU要读某个地址时，首先要先计算出该地址的值。假设地址是从00000000开始的，FFFFFFFF结束，在此范围内的地址空间有多大呢？很明显，00000000~FFFFFFFF一共有2^32= 4294967296种取值，也就是我们常说的4G。可惜小编我曾经脑子进水，问出这样的问题：地址不是按字节标识的么？byte和bit不是按8位换算的么？你这4G换算成字节，不是只有500MB大小么？那00000000~FFFFFFFF何来4GB地址空间？？？饿，别笑话我，拿这个问题去问我的学霸朋友，居然把他也蒙了好一会儿！当然，要解释这个也很容易，正因为地址是按字节标识的，因此当我们访问存储器时，根本不需要对存储器的逐个位进行读取，找到字节级，再用移位就能存储空间的每个位了。比如，假设有一款特殊的CPU，它是2位的CPU，毫无疑问，他每次只可能处理00、01、10、11这四种值，于是这四个值可以代表四个地址，而每个地址代表8位存储空间，也就是32位地址空间……想明白没？CPU里处理地址值时，每个数值都代表一个字节（byte）大小的存储空间，而不是一位（bit）大小的存储空间。因此，4Gbit大小的数值空间，就能标识4GB大小的地址空间，如果说计算地址相当于数数，那么我们是按字节来数存储器空间，而不是按位来数……你别说，脑子卡壳时，要是没事先想清楚，还真有可能被人问到(⊙o⊙)。ps，这里的“卡”应该读qiǎ，哈哈！

所谓地址空间，其实是由地址来解释空间，地址是数值，而每一个数值标识一个8位的存储空间，这应该算是地址空间不太严格的定义了！

哈勒，好了，假设地址有m位，那么就有M=2^m个字节地址空间，M个不同的地址。结论先放在这，我们来浅析下什么是地址多。来看两则定义：

1.内存中每个用于数据存取的基本单位，都被赋予一个唯一的序号，称为地址。

2.标识寄存器、存储单元和存储设备的编号或名称。

定义1太过狭隘，把地址的概念限制于内存之中，显然不是我们想要的，还是定义2比较靠谱，用来标识寄存器和存储的编号或名称，它提供了在寄存器、缓存、内存、硬盘等器件中的数据检索依据。也就是说，M=2^m地址空间对这些器件的作用是类似的，只是具体策略有所不同。

事实上，现代操作系统所管辖的内存时，是不会让程序员访问到内存每个数据块的实际硬件地址的，而是采用一种称为“虚拟存储器”的方法，将内存中连续或不连续的存储块，定义成连续的虚拟地址供程序员访问，类似C语言中取地址&符号的出来的地址值，都是这种虚拟地址值，这样有利于简化操作，更有便于操作系统和内存硬件采用更合理的方案分配存储空间。内存是缓存硬盘数据的重要工具，这些属于层次结构中L4和L5的规则原理，将在后面虚拟存储器章节进行详细讨论。

CPU如何通过地址管理寄存器，我们也不关心，我们要关心的是嵌入cpu内部的高速缓存L1以及下层的L2、L3的通用缓存的地址结构。试想，高速缓存总是比内存（教材上经常成为主存或者存储器）小得多得多，L1一般就几十上百KB而已，离4GB远着呢，那么CPU的这32位地址怎么用呢?很明显，高速缓存既然小，那一定是被地址空间所共享，你4GB中任何一个字节都可能被缓存在L1~L3中，很显然，我们得有办法进行区分。要对高速缓存进行有效的管理，就得给高缓存分组，组里面还可以有行，行里面可以有不同的字节串，针对这个想法，就能推出教材里的通用结构图：

品味这个结构图时，凭直觉容易犯的错误，就是把下面的地址和上面的行混为一谈。因此先明确下概念：

1.上面整个部分就是高速缓存

2.这个高速缓存被划分成S个组

3.每个组有E行数据

4.每行中都有一个高速缓存块，

5.每个缓存块的大小是B个字节

6.综上所述，整个高速缓存的存储大小C = S*E*B，你滴明白？

我始终觉得，从大到小的计算方式更符合中国人的思维习惯，对C的一个简单乘法计算，写成这样的顺序更便于理解。

好了，既然清楚了高速缓存的通用结构，那么CPU是依据什么来访问缓存中各字节的呢？首先你得找到组吧，然后找到行吧，最后找到块吧，最后再通过偏移找到具体的字节吧？如果你能看懂到这，那（S，E，B，m）就灰常好理解了。

既然CPU在访问高速缓存时，需要找这么多信息，那么在定义高速缓存的地址概念时，就必须得有响应的字段来标识。刚才我们有了M=2^m，说明地址有m位，标识了M字节的地址空间。现在要标识组，要在S个组里面找出唯一的一个组信息，需要占用地址中的多少位呢？如果S=2^s，那我们就需要在m位地址中划分出s位来标识组信息；好，接下来要找行，既然每组有E行，若E=2^t，那有要在m位中划分t位来标识行信息；最后是行中的缓存块字节偏移，既然有B字节，而B=2^b字节，也就说还要从m中分配b位来标识块字节偏移

5.2、直接映射高速缓存

于是我们先对t做做文章，让他不表述行信息，假如每个组只有一行如何？这就是所谓的直接映射高速缓存！这种缓存的特点是，每组只有一行，那每组也就只有一个缓存块。这样一来，t就不在用于区分组中的行信息了。它用来干什么呢？答案是，用来共享。在直接映射高速缓存中，标记位t就是不同地址共享同一行缓存空间的依据。

上图解释了地址位（下）于直接映射高速缓存（上）的对应关系。

1.根据地址中的i已经找到了缓存里的i组

2.读取了缓存中第一位的有效位是1，说明该数据有效，

3. 判断地址中标记位t的值是否与i组里这唯一的一行纪录中的标记位相等，若相等说明数据有效，缓存命中，

若不相等呢？说明该组该行正缓存其他标记位标识的信息，也就是对当前地址不命中。

4.若缓存命中，则读取地址中块偏移信息，找到具体的字节。既然块偏移的取值范围是000~111，也就是0~7，说明可以访问8字节块中任意一个字节。

我们发现，正是因为有标记位的存在，同样大小的直接映射缓存，在服务于m位地址时，可以减少块偏移的位数，简化偏移操作，增加组的数量。同时，因为标记位的存在，使得m地址所标识的数据被轮流载入缓存，由标记位判断缓存是否命中。某个确定地址的数据可以暂时不在缓存中保存。

这里详细阐述教材中的例子：

假设有一个直接映射高速缓存：（S，E，B，m）=（4，1，2，4）。根据上面的基础可以得知，这个缓存有4个组，每组一行（直接映射的特征），每个块有两个字节，地址有4位。可以得出如下信息：

组索引位：s=2；块偏移位数b=1；地址位数m=4，物理地址最大数量M=2^4=16字节，标记位t = m - s - b = 1。

1.先从索引位和偏移位看起，组索引00~11标志四个组，每个组有一个缓存块（每个组只有一行的嘛），每个缓存块有两个字节，因此偏移位是0~1，从上图看出，每个索引位对应两个偏移位，其实就是遍历每组里缓存块的各字节，他们共有8种组合。

2.标记位t取值0~1，由于每组只有一行，因此标记位用于区分同组、同偏移位的可能存储的不同字节。也就说，每组中的缓存块的每个字节，都可能对应两个不同的取值，用标记位区分开来。因此我们看到，标记位0~1，将索引位和偏移位的组合数增大了一倍。

3.由于标记位对缓存块的扩展，本来只有C=S*E*B=4*1*2=8字节大小的缓存，增大一倍后就能处理16字节数据了，你看看，刚好就能对应地址0~15这16个取值，每个取值代表一个字节，就刚好是16字节（听起来很废话，主要为了尽可能让大家读懂）

4.由于每个缓存块是两个字节大小，因此16个字节就需要8个缓存块，因此就有了最后的“块号”，刚好0~7，共8个块。本来高速缓存只有4个块，现在通过标记位的引入，逻辑上便扩展成8个块，只是在具体实现时，0、4块共享同一个空间；1、5块共享同一个空间；2、6块共享同一个空间；3、7块共享同一个空间。

综上所述，这款直接映射高速缓存实际具有4个缓存块，通过标记位在逻辑上扩展成8个逻辑块，每个逻辑块都唯一对应两个计算机里的字节

5.3、组相联高速缓存和全相联高速缓存

组相联英文里为set associative，比如我的CPU是8-way set associative，8路组相联缓存，说明每组中有8行。组相联高速缓存中，每组的行数E的范围应该是1<E<C/B。每组多行的缓存策略如何实现呢？想想直接映射高速缓存，虽然每组只有一行，但是该行的索引位t并不唯一，如上例，索引位00有可能对应0块和块4,说明块0和块4共享组0，那如果组0刚好能容纳两行数据，则块0和块4就可以同时存在组0中，访问时也很好区分，就用直接映射缓存里的标记位t，通过t的0、1不同取值来识别。

5.3.1、组相联高速缓存中的组选择

它的组选择与直接映射高速缓存的组选择一样，组索引为标识组

5.3.2、组相联高速缓存中的行匹配和字选择

组相联高速缓存中的行匹配比直接高速缓存中的更复杂，因为它必须检查多个行的标记位和有效位，以确定所请求的字是否在集合中。传统的内存是一个值的数组，以地址为输入，并返回存储在哪个地址的值。另一方面，相联存储器是一个（Key，Value）对的数组，以Key为输入，返回与输入Key相匹配的（Key，Value）对中的Value值。

组相联高速缓存中行匹配的基本思想就是组中的任何一行都可以包含任何映射到这个组的内存块。

5.3.3、组相联高速缓存中不命中时的行替换

如果CPU请求的字不在组的任何一行中，那么就是缓存不命中，高速缓存必须从内存中取出包含这个字得块。不过，一旦高速缓存取出了这个块，该替换哪个行？当然，如果有一个空行，那它就是个很好的候选。但是如果该组中没有空行，那么我们必须从中选择一个非空行，希望CPU不会很快引用这个被替换的行。

最简单的替换策略是随机选择要替换的行。其他更复杂的策略利用了局部性原理，以使在比较近的将来引用被替换的行的概率最小。常用的替换策略有：最不常使用策略（Least-Frequently—Used）和最近最少使用(Least-Recently-Used)