计算机组成原理-存储器

最新推荐文章于 2023-05-15 15:54:41 发布

weixin_37143690

最新推荐文章于 2023-05-15 15:54:41 发布

阅读量733

点赞数 1

分类专栏：计基

本文链接：https://blog.csdn.net/weixin_37143690/article/details/105535966

版权

计基专栏收录该内容

5 篇文章 0 订阅

订阅专栏

存储器的层次结构

SRAM（Static Random-Access Memory，静态随机存取存储器）的芯片，断电会丢失数据，访问速度极快

DRAM（Dynamic Random Access Memory，动态随机存取存储器）的芯片比起 SRAM 来说，它的密度更高，有更大的容量，而且它也比 SRAM 芯片便宜不少。但是访问速度比SRAM慢。

众所周知，CPU的速度远远超于IO速度，故有“主要瓶颈不在 CPU，而在 I/O”的说法。CPU Cache是CPU里面的寄存器，更像是 CPU 本身的一部分，只能存放极其有限的信息，但是速度非常快，和 CPU 同步。

在 CPU 里，通常会有 L1、L2、L3 这样三层高速缓存(访问速度L1>L2>L3)。每个 CPU 核心都有一块属于自己的 L1 高速缓存，通常分成指令缓存和数据缓存，分开存放 CPU 使用的指令和数据。L2 的 Cache 同样是每个 CPU 核心都有的，不过它往往不在 CPU 核心的内部。所以，L2 Cache 的访问速度会比 L1 稍微慢一些。而 L3 Cache，则通常是多个 CPU 核心共用的，尺寸会更大一些，访问速度自然也就更慢一些。

从 Cache、内存，到 SSD 和 HDD 硬盘，一台现代计算机中，就用上了所有这些存储器设备。其中，容量越小的设备速度越快，而且，CPU 并不是直接和每一种存储器设备打交道，而是每一种存储器设备，只和它相邻的存储设备打交道。比如，CPU Cache 是从内存里加载而来的，或者需要写回内存，并不会直接写回数据到硬盘，也不会直接从硬盘加载数据到 CPU Cache 中，而是先加载到内存，再从内存加载到 Cache 中。

这样，各个存储器只和相邻的一层存储器打交道，并且随着一层层向下，存储器的容量逐层增大，访问速度逐层变慢，而单位存储成本也逐层下降，也就构成了我们日常所说的存储器层次结构。这种层次结构主要权衡性能和成本。

局部性原理

我们知道，Cache速度虽然快，但是价格高昂，硬盘容量大但是访问速度慢。于是就抛出了一个问题，“如何既享受 CPU Cache 的速度，又享受内存、硬盘巨大的容量和低廉的价格”。这个解决方法就是局部性原理，其包含时间局部性和空间局部性两种策略。

时间局部性：如果一个数据被访问了，那么它在短时间内还会被再次访问。在一个电子商务型系统中，如果一个用户打开了 App，看到了首屏。我们推断他应该很快还会再次访问网站的其他内容或者页面，我们就将这个用户的个人信息，从存储在硬盘的数据库读取到内存的缓存中来。这利用的就是时间局部性。

空间局部性：如果一个数据被访问了，那么和它相邻的数据也很快会被访问。这就好比我们的程序，在访问了数组的首项之后，多半会循环访问它的下一项。因为，在存储数据的时候，数组内的多项数据会存储在相邻的位置。

在实际的计算机日常的开发和应用中，我们对于数据的访问总是会存在一定的局部性。有时候，这个局部性是时间局部性，就是我们最近访问过的数据还会被反复访问。有时候，这个局部性是空间局部性，就是我们最近访问过数据附近的数据很快会被访问到。而局部性的存在，使得我们可以在应用开发中使用缓存这个有利的武器。比如，通过将热点数据加载并保留在速度更快的存储设备里面，我们可以用更低的成本来支撑服务器。

具体应用就是LRU（Least Recently Used）缓存算法,以及对应关键指标缓存命中率。

CPU Cache中的局部性原理剖析

现代 CPU 进行数据读取的时候，无论数据是否已经存储在 Cache 中，CPU 始终会首先访问 Cache。只有当 CPU 在 Cache 中找不到数据的时候，才会去访问内存，并将读取到的数据写入 Cache 之中。当时间局部性原理起作用后，这个最近刚刚被访问的数据，会很快再次被访问。而 Cache 的访问速度远远快于内存，这样，CPU 花在等待内存访问上的时间就大大变短了。这样的访问机制，和我们自己在开发应用系统的时候，“使用内存作为硬盘的缓存”的逻辑是一样的。在各类基准测试（Benchmark）和实际应用场景中，CPU Cache 的命中率通常能达到 95% 以上。

这就设计到两个问题

第一个问题是，CPU cache 数据地址如何映射到内存？《深入浅出计算机组成原理》37-38讲种有详细叙述

第二个问题是，多核CPU之间L3缓存时多个CPU公用的，由于L1,L2每个CPU独有的，怎么保证数据的一致性。《深入浅出计算机组成原理》39讲讲到了MESI协议。

理解内存

内存是五大组成部分里面的存储器，我们的指令和数据，都需要先加载到内存里面，才会被 CPU 拿去执行。在Linux 或者 Windows 操作系统下，程序并不能直接访问物理内存。内存需要被分成固定大小的页（Page），然后再通过虚拟内存地址（Virtual Address）到物理内存地址（Physical Address）的地址转换（Address Translation），才能到达实际存放数据的物理内存位置。而我们的程序看到的内存地址，都是虚拟内存地址。

页表（Page Table）：想要把虚拟内存地址，映射到物理内存地址，最直观的办法，就是来建一张映射表。这个映射表，能够实现虚拟内存里面的页，到物理内存里面的页的一一映射。

因为每个页的大小是固定的，我们可以给每个页设置一个页号，就可以通过页号索引到对应的页。而又因为每一个页的大小固定，所以可以通过偏移量索引到单个页里面所有内存。

如果只是采取上述简单页表，那么每一个进程都得维护整份页表，浪费了比较多了空间。所以对简单页表进行了优化。

多级页表：先来看一看，一个进程的内存地址空间是怎么分配的。在整个进程的内存地址空间，通常是“两头实、中间空”。在程序运行的时候，内存地址从顶部往下，不断分配占用的栈的空间。而堆的空间，内存地址则是从底部往上，是不断分配占用的。所以，在一个实际的程序进程里面，虚拟内存占用的地址空间，通常是两段连续的空间。而不是完全散落的随机的内存地址。而多级页表，就特别适合这样的内存地址分布。

我们以一个 4 级的多级页表为例，来看一下。同样一个虚拟内存地址，偏移量的部分和上面简单页表一样不变，但是原先的页号部分，我们把它拆成四段，从高到低，分成 4 级到 1 级这样 4 个页表索引。我们可能有很多张 1 级页表、2 级页表，乃至 3 级页表。但是，因为实际的虚拟内存空间通常是连续的，我们很可能只需要很少的 2 级页表，甚至只需要 1 张 3 级页表就够了。

事实上，多级页表就像一个多叉树的数据结构，所以我们常常称它为页表树（Page Table Tree）。因为虚拟内存地址分布的连续性，树的第一层节点的指针，很多就是空的，也就不需要有对应的子树了。所谓不需要子树，其实就是不需要对应的 2 级、3 级的页表。找到最终的物理页号，就好像通过一个特定的访问路径，走到树最底层的叶子节点。

再度优化TLB

从虚拟内存地址到物理内存地址的转换，我们通过页表这个数据结构来处理。为了节约页表的内存存储空间，我们会使用多级页表数据结构。不过，多级页表虽然节约了我们的存储空间，但是却带来了时间上的开销，变成了一个“以时间换空间”的策略。原本我们进行一次地址转换，只需要访问一次内存就能找到物理页号，算出物理内存地址。但是用了 4 级页表，我们就需要访问 4 次内存，才能找到物理页号。

其中一个优化方法就是添加一个缓存。（局部性原理的应用）由于虚拟内存是连续的，所以接下来的物理地址有很大概率跟上面的地址是同一个虚拟页，所以不需要重复查找，只需要更新偏移量就能继续访问下一块内存。计算机工程师们专门在 CPU 里放了一块缓存芯片。这块缓存芯片我们称之为 TLB，全称是地址变换高速缓冲（Translation-Lookaside Buffer）。这块缓存存放了之前已经进行过地址转换的查询结果。这样，当同样的虚拟地址需要进行地址转换的时候，我们可以直接在 TLB 里面查询结果，而不需要多次访问内存来完成一次转换。TLB 和我们前面讲的 CPU 的高速缓存类似，可以分成指令的 TLB 和数据的 TLB，也就是 ITLB 和 DTLB。同样的，我们也可以根据大小对它进行分级，变成 L1、L2 这样多层的 TLB。

为了性能，我们整个内存转换过程也要由硬件来执行。在 CPU 芯片里面，我们封装了内存管理单元（MMU，Memory Management Unit）芯片，用来完成地址转换。和 TLB 的访问和交互，都是由这个 MMU 控制的。

weixin_37143690

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
计算机组成原理-存储器

存储器的层次结构SRAM（Static Random-Access Memory，静态随机存取存储器）的芯片，断电会丢失数据，访问速度极快DRAM（Dynamic Random Access Memory，动态随机存取存储器）的芯片比起 SRAM 来说，它的密度更高，有更大的容量，而且它也比 SRAM 芯片便宜不少。但是访问速度比SRAM慢。众所周知，CPU的速度远远超于IO速度，...
复制链接

扫一扫

专栏目录