带你学习《深入理解计算机系统》程序性能优化探讨（3）——存储器层次结构与高速缓存

最新推荐文章于 2021-10-14 22:26:23 发布

coreyspomu

最新推荐文章于 2021-10-14 22:26:23 发布

阅读量2.9k

点赞数 2

分类专栏：程序性能优化

本文链接：https://blog.csdn.net/u013471946/article/details/41456055

版权

本文介绍了存储器层次结构，特别是高速缓存（L1-L3）的工作原理，强调了缓存对于程序性能优化的重要性。文章通过32位机的地址空间解释，阐述了地址和存储空间的关系，并详细讲解了高速缓存的通用结构，包括组、行和字节偏移。最后，讨论了直接映射高速缓存、组相联高速缓存和全相联高速缓存的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

连外行都大概清楚，目前硬件速度的瓶颈在硬盘而不是CPU。为了有效的克服不同器件之间的速度差，从CPU到硬盘引入了多级缓存机制。由于缓存影响程序读取速度，因此是实现优化时必须考虑的内容。

一、存储器层次结构

缓存的思想可能存在于任何有速度差的存储之间，现在看看经典的存储器层次结构图：

从L0到L3，都是针对CPU处理本身设计的缓存结构，L4就是我们常说的内存，以下类似。分这么多层次，说明在CPU指令执行过程中，数据被人为划分成多个层次结构。最顶层的L0就是寄存器，用于CPU指令执行时保存临时值；L1~L3是SRAM，即静态RAM，速度快但造价较DRAM要高得多，分别保存跟CPU执行指令相关、由小到大的三个抽象层信息。L4及之后的存储器，为更大的抽象层，关于其中的细节，将作为虚拟存储器内容，在随后的章节中讨论。为了方便起见，我们只针对L1高速缓存进行原理级论述。

二、高速缓存通用结构

在讨论之前，我们再来确认一个老生常谈的问题，我常说：“32位机最大可访问4GB的地址空间”，啥意思？首先，32位是CPU的一个参数，指CPU总线的数据宽度。32位CPU顾名思义就是拥有32bit的总线数据宽度，一次操作最大可执行32位的计算。回忆下之前我们讲过的32位乘法，由于乘法的结果有可能大于32位，因此会用两个32位变量进行保存。

那么，当CPU要读某个地址时，首先要先计算出该地址的值。假设地址是从00000000开始的，FFFFFFFF结束，在此范围内的地址空间有多大呢？很明显，00000000~FFFFFFFF一共有2^32= 4294967296种取值，也就是我们常说的4G。可惜小编我曾经脑子进水，问出这样的问题：地址不是按字节标识的么？byte和bit不是按8位换算的么？你这4G换算成字节，不是只有500MB大小么？那00000000~FFFFFFFF何来4GB地址空间？？？饿，别笑话我，拿这个问题去问我的学霸朋友，居然把他也蒙了好一会儿！当然，要解释这个也很容易，正因为地址是按字节标识的，因此当我们访问存储器时，根本不需要对存储器的逐个位进行读取，找到字节级，再用移位就能存储空间的每个位了。比如，假设有一款特殊的CPU，它是2位的CPU，毫无疑问，他每次只可能处理00、01、10、11这四种值，于是这四个值可以代表四个地址，而每个地址代表8位存储空间，也就是32位地址空间……想明白没？CPU里处理地址值时，每个数值都代表一个字节（byte）大小的存储空间，而不是一位（bit）大小的存储空间。因此，4Gbit大小的数值空间，就能标识4GB大小的地址空间，如果说计算地址相当于数数，那么我们是按字节来数存储器空间，而不是按位来数……你别说，脑子卡壳时，要是没事先想清楚，还真有可能被人问到(⊙o⊙)。ps，这里的“卡”应该读qiǎ，哈哈！

最直接的回答是：32位机，可表述2^32字节的地址空间（2^32B），分别是2^2*2^10*2^10*2^10，而三个2^10的递增刚好是KB->MB>GB，也就是2^2GB也就是4GB。

所谓地址空间，其实是由地址来解释空间，地址是数值，而每一个数值标识一个8位bit的存储空间，这应该算是地址空间不太严格的定义了！

好了，假设地址有m位，那么就有M=2^m个字节地址空间，M个不同的地址。结论先放在这，我们来浅析下什么是地址。来看两则定义：

1.内存中每个用于数据存取的基本单位，都被赋予一个唯一的序号，称为地址。

2.标识寄存器、存储单元和存储设备的编号或名称。

定义1太过狭隘，把地址的概念限制于内存之中，显然不是我们想要的，还是定义2比较靠谱，用来标识寄存器和存储的编号或名称，它提供了在寄存器、缓存、内存、硬盘等器件中的数据检索依据。也就是说，M=2^m地址空间对这些器件的作用是类似的，只是具体策略有所不同。

事实上，现代操作系统所管辖的内存时，是不会让程序员访问到内存每个数据块的实际硬件地址的，而是采用一种称为“虚拟存储器”的方法，将内存中连续或不连续的存储块，定义成连续的虚拟地址供程序员访问。类似C语言中取地址&符号的出来的地址值，都是这种虚拟地址值，这样有利于简化操作，更有便于操作系统和内存硬件采用更合理的方案分配存储空间。内存是缓存硬盘数据和程序中间值的重要工具，这些属于层次结构中L4和L5的规则原理，将在后面虚拟存储器章节进行详细讨论。

CPU如何通过地址管理寄存器，我们也暂不关心，我们要关心的是嵌入cpu内部的高速缓存L1以及下层的L2、L3的通用缓存的地址结构。试想，高速缓存总是比内存（教材上经常称为主存或者存储器）小得多得多，L1一般就几十上百KB而已，离4GB远着呢，那么CPU的这32位地址怎么用呢?很明显，高速缓存既然小，那一定是被地址空间所共享，你4GB中任何一个字节都可能被缓存在L1~L3中，很显然，我们得有办法进行区分。要对高速缓存进行有效的管理，就得给高缓存分组，组里面还可以有行，行里面可以有不同的字节串，针对这个想法，就能推出教材里的通用结构图：