图解系统:CPU、内存管理

目录

1.硬件结构

1.1.存储器的层次关系

1.2.CPU

1.2.1.CPU缓存结构

1.2.2.CPU Cache的数据结构和读取过程是什么样的?

1.2.3.如何写出让CPU跑的更快的代码?

1.2.4.如何提升多核 CPU 的缓存命中率?

1.2.5.如何提升多个CPU的缓存命中率?

2.CPU缓存一致性

2.1.CPU Cache 的数据写入

2.1.1.写穿 Write Through

2.1.2.写回write back

2.2.缓存一致性问题

2.3.MESI协议

2.3.1.MESI协议介绍

2.3.2.状态转换

2.4.伪共享

2.4.1.伪共享场景描述

2.4.2.避免伪共享的方法

3.Linux虚拟内存管理

3.1.虚拟内存

3.1.1.为什么要使用虚拟地址访问内存

3.1.2.虚拟内存与物理内存映射

3.2.malloc

3.2.1.malloc是如何分配内存的?

3.2.2.malloc() 分配的是物理内存吗?

3.2.3.malloc(1) 会分配多大的虚拟内存?

3.2.4.free 释放内存,会归还给操作系统吗?

3.2.5.为什么不全部使用 mmap 来分配内存?

3.2.6.为什么不全部使用 brk 来分配内存?

3.2.7.free函数只传入一个内存地址,为什么能知道要释放多大的内存?

4.内存管理

4.1.内存满了,会发生什么?

4.1.1.内存分配的过程是怎样的?

4.2.在4GB物理内存的机器上,申请8G内存会怎么样?

4.2.1.操作系统虚拟内存大小

4.2.2.Swap 机制的作用

4.3.内存页面置换算法

4.3.1.缺页中断

4.3.2.页面置换算法

5.如何避免「预读失效」和「缓存污染」的问题

​编辑 5.1.预读失效,怎么办? --- 冷热隔离

5.1.1.什么是预读机制?

5.1.2.预读失效会带来什么问题?

5.1.3.如何避免预读失效造成的影响?

5.2.缓存污染,怎么办?

5.2.1.什么是缓存污染?

5.2.2.缓存污染会带来什么问题?

5.2.3.怎么避免缓存污染造成的影响?

6.页面置换算法


1.硬件结构

1.1.存储器的层次关系

每个存储器只和相邻的一层存储器设备打交道,并且存储设备为了追求更快的速度,所需的材料成本必然也是更高,也正因为成本太高,所以 CPU 内部的寄存器、L1\L2\L3 Cache 只好用较小的容量,相反内存、硬盘则可用更大的容量,这就我们今天所说的存储器层次结构。

另外,当 CPU 需要访问内存中某个数据的时候,如果寄存器有这个数据,CPU 就直接从寄存器取数据即可,如果寄存器没有这个数据,CPU 就会查询 L1 高速缓存,如果 L1 没有,则查询 L2 高速缓存,L2 还是没有的话就查询 L3 高速缓存,L3 依然没有的话,才去内存中取数据。

1.2.CPU

1.2.1.CPU缓存结构

L1高速缓存

  • L1高速缓存的访问速度几乎和寄存器一样快,通常只需要2~4个时钟周期,而大小在几十KB到几百KB不等。
  • 每个 CPU 核心都有一块属于自己的 L1 高速缓存,指令和数据在 L1 是分开存放的,所以 L1 高速缓存通常分成指令缓存数据缓存

L2高速缓存

  • L2高速缓存,L2 高速缓存同样每个 CPU 核心都有,但是 L2 高速缓存位置比 L1 高速缓存距离 CPU 核心 更远,它大小比 L1 高速缓存更大,CPU 型号不同大小也就不同,通常大小在几百 KB 到几 MB 不等,访问速度则更慢,速度在 10~20 个时钟周期

L3高速缓存

  • L3 高速缓存通常是多个 CPU 核心共用的,位置比 L2 高速缓存距离 CPU 核心 更远,大小也会更大些,通常大小在几 MB 到几十 MB 不等,具体值根据 CPU 型号而定。
  • 访问速度相对也比较慢一些,访问速度在 20~60个时钟周期。

1.2.2.CPU Cache的数据结构和读取过程是什么样的?

CPU Cache结构

  • Cpu Cache是由很多Cache Line组成的
  • Cache Line是CPU从内存读取数据的基本单位:CPU每次从内存中读取数据的最小单位
    • 服务器的 L1 Cache Line 大小是 64 字节,也就意味着 L1 Cache 一次载入数据的大小是 64 字节
  • Cache Line是由各种标志Tag+数据块Data Block组成

1.2.3.如何写出让CPU跑的更快的代码?

「如何写出让 CPU 跑得更快的代码?」这个问题,等价于「如何写出 CPU 缓存命中率高的代码?」

在前面我也提到, L1 Cache 通常分为「数据缓存」和「指令缓存」,这是因为 CPU 会分别处理数据和指令,比如 1+1=2 这个运算,+ 就是指令,会被放在「指令缓存」中,而输入数字 1 则会被放在「数据缓存」里。

因此,我们要分开来看「数据缓存」和「指令缓存」的缓存命中率

① 如何提升数据缓存的命中率?

遍历二维数组,有2种形式

  1. array[i][j] 访问数组元素的顺序,正是和内存中数组元素存放的顺序一致
  2. array[j][i] 来访问,则访问的顺序就是跳跃式

        因此,遇到这种遍历数组的情况时,按照内存布局顺序访问,将可以有效的利用 CPU Cache 带来的好处,这样我们代码的性能就会得到很大的提升

② 如何提升指令缓存的命中率?

  • 第一个操作,循环遍历数组,把小于 50 的数组元素置为 0;
  • 第二个操作,将数组排序

        实际上,CPU 自身的动态分支预测已经是比较准的了,所以只有当非常确信 CPU 预测的不准,且能够知道实际的概率情况时,才建议使用这两种宏。

1.2.4.如何提升多核 CPU 的缓存命中率?

比如在 C/C++ 语言中编译器提供了 likely 和 unlikely 这两种宏,如果 if 条件为 ture 的概率大,则可以用 likely 宏把 if 里的表达式包裹起来,反之用 unlikely 宏。

实际上,CPU 自身的动态分支预测已经是比较准的了,所以只有当非常确信 CPU 预测的不准,且能够知道实际的概率情况时,才建议使用这两种宏。

1.2.5.如何提升多个CPU的缓存命中率?

        现代 CPU 都是多核心的,线程可能在不同 CPU 核心来回切换执行,这对 CPU Cache 不是有利的,虽然 L3 Cache 是多核心之间共享的,但是 L1 和 L2 Cache 都是每个核心独有的,如果一个线程在不同核心来回切换,各个核心的缓存命中率就会受到影响,相反,如果线程都在同一个核心上执行,那么其数据的 L1 和 L2 Cache 的缓存命中率可以得到有效提高,缓存命中率高就意味着 CPU 可以减少访问 内存的频率。

        当有多个同时执行「计算密集型」的线程,为了防止因为切换到不同的核心,而导致缓存命中率下降的问题,我们可以把线程绑定在某一个 CPU 核心上,这样性能可以得到非常可观的提升。

实现方式:在 Linux 上提供了 sched_setaffinity 方法,来实现将线程绑定到某个 CPU 核心这一功能。

2.CPU缓存一致性

2.1.CPU Cache 的数据写入

        数据不光是只有读操作,还有写操作,那么如果数据写入 Cache 之后,内存与 Cache 相对应的数据将会不同,这种情况下 Cache 和内存数据都不一致了,于是我们肯定是要把 Cache 中的数据同步到内存里的。

        问题来了,那在什么时机才把 Cache 中的数据写回到内存呢?为了应对这个问题,下面介绍两种针对写入数据的方法:

2.1.1.写穿 Write Through

保持内存与 Cache 一致性最简单的方式是,把数据同时写入内存和 Cache 中,这种方法称为写直达(Write Through

分析:写直达法很直观,也很简单,但是问题明显,无论数据在不在 Cache 里面,每次写操作都会写回到内存,这样写操作将会花费大量的时间,无疑性能会受到很大的影响

2.1.2.写回write back

既然写直达由于每次写操作都会把数据写回到内存,而导致影响性能,于是为了要减少数据写回内存的频率,就出现了写回(Write Back)的方法

核心:在写回机制中,当发生写操作时,新的数据仅仅被写入 Cache Block 里,只有当修改过的 Cache Block「被替换」时,才需要写到内存中,减少了数据写回内存的频率,这样便可以提高系统的性能。

        

那具体如何做到的呢?下面来详细说一下:

        当且仅当数据不在CPU Cache中,并且该 CPU Cache被其他数据占用 && 标记为Drity状态 时,才将CPU Cache中的数据。

2.2.缓存一致性问题

在多个核心(CPU),如何保证多个CPU Cache缓存的一致性。

2.3.MESI协议

2.3.1.MESI协议介绍

MESI 协议其实是 4 个状态单词的开头字母缩写,分别是:

  • Modified,已修改
  • Exclusive,独占
  • Shared,共享
  • Invalidated,已失效

「已修改」状态就是我们前面提到的脏标记,代表该 Cache Block 上的数据已经被更新过,但是还没有写到内存里

「已失效」状态,表示的是这个 Cache Block 里的数据已经失效了,不可以读取该状态的数据。

「独占」和「共享」状态都代表 Cache Block 里的数据是干净的,也就是说,这个时候 Cache Block 里的数据和内存里面的数据是一致性的。

「独占」和「共享」的差别在于,独占状态的时候,数据只存储在一个 CPU 核心的 Cache 里,而其他 CPU 核心的 Cache 没有该数据。这个时候,如果要向独占的 Cache 写数据,就可以直接自由地写入,而不需要通知其他 CPU 核心,因为只有你这有这个数据,就不存在缓存一致性的问题了,于是就可以随便操作该数据。

2.3.2.状态转换

在「独占」状态下的数据,如果有其他核心从内存读取了相同的数据到各自的 Cache ,那么这个时候,独占状态下的数据就会变成「共享」状态

「共享」状态代表着相同的数据在多个 CPU 核心的 Cache 里都有,所以当我们要 更新 某个Cache 里面的数据的时候,不能直接修改,而是要先向所有的其他 CPU 核心广播一个请求要求先把其他核心的 Cache 中对应的 Cache Line 标记为「无效」状态,然后再更新当前 Cache 里面的数据

我们举个具体的例子来看看这四个状态的转换:

  1. 当 A 号 CPU 核心从内存读取变量 i 的值,数据被缓存在 A 号 CPU 核心自己的 Cache 里面,此时其他 CPU 核心的 Cache 没有缓存该数据,于是标记 Cache Line 状态为「独占」,此时其 Cache 中的数据与内存是一致的;
  2. 然后 B 号 CPU 核心也从内存读取了变量 i 的值,此时会发送消息给其他 CPU 核心,由于 A 号 CPU 核心已经缓存了该数据,所以会把数据返回给 B 号 CPU 核心。在这个时候, A 和 B 核心缓存了相同的数据,Cache Line 的状态就会变成「共享」,并且其 Cache 中的数据与内存也是一致的;
  3. 当 A 号 CPU 核心要修改 Cache 中 i 变量的值,发现数据对应的 Cache Line 的状态是共享状态,则要向所有的其他 CPU 核心广播一个请求,要求先把其他核心的 Cache 中对应的 Cache Line 标记为「无效」状态,然后 A 号 CPU 核心才更新 Cache 里面的数据,同时标记 Cache Line 为「已修改」状态,此时 Cache 中的数据就与内存不一致了。
  4. 如果 A 号 CPU 核心「继续」修改 Cache 中 i 变量的值,由于此时的 Cache Line 是「已修改」状态,因此不需要给其他 CPU 核心发送消息,直接更新数据即可。
  5. 如果 A 号 CPU 核心的 Cache 里的 i 变量对应的 Cache Line 要被「替换」,发现 Cache Line 状态是「已修改」状态,就会在替换前先把数据同步到内存

2.4.伪共享

2.4.1.伪共享场景描述

因为多个线程同时读写同一个 Cache Line 的不同变量时,而导致 CPU Cache 失效的现象称为伪共享(False Sharing

下图描述:

  1. 假设 1 号核心绑定了线程 A,2 号核心绑定了线程 B,线程 A 只会读写变量 A,线程 B 只会读写变量 B
  2. 1号核心需要修改变量 A、2号核心需要修改变量 B
  3. A和B占据同一个Cache Line:由于 CPU 从内存读取数据到 Cache 的单位是 Cache Line,也正好变量 A 和 变量 B 的数据归属于同一个 Cache Line,所以 A 和 B 的数据都会被加载到 Cache

现象:cache频繁失效

  1. 当1号核心修改A时,会让2号线程的CPU Cache失效
  2. 当2号核心修改A时,会让1号线程的CPU Cache失效

        可以发现,如果 1 号和 2 号 CPU 核心这样持续交替的分别修改变量 A 和 B,就会导致 Cache 频繁的失效,虽然变量 A 和 B 之间其实并没有任何的关系,但是因为同时归属于一个 Cache Line ,这个 Cache Line 中的任意数据被修改后,都会相互影响。

2.4.2.避免伪共享的方法

因此,对于多个线程共享的热点数据,即经常会修改的数据,应该避免这些数据刚好在同一个 Cache Line 中,否则就会出现为伪共享的问题。

在 Linux 内核中存在 __cacheline_aligned_in_smp 宏定义,是用于解决伪共享的问题。

从上面的宏定义,我们可以看到:

  • 如果在多核(MP)系统里,该宏定义是 __cacheline_aligned,也就是 Cache Line 的大小;
  • 而如果在单核系统里,该宏定义是空的;

因此,针对在同一个 Cache Line 中的共享的数据,如果在多核之间竞争比较严重,为了防止伪共享现象的发生,可以采用上面的宏定义使得变量在 Cache Line 里是对齐的。

struct test { // 写法1
    int a;
    int b;
}

struct test { // 写法2
    int a;
    int b __cacheline_aligned_in_smp;
}

所以,避免 Cache 伪共享实际上是用空间换时间的思想,浪费一部分 Cache 空间,从而换来性能的提升。

3.Linux虚拟内存管理

  • 进程无论是在用户态还是在内核态能够看到的都是虚拟内存空间,物理内存空间被操作系统所屏蔽进程是看不到的。
  • 进程通过虚拟内存地址访问这些数据结构的时候,虚拟内存地址会在内存管理子系统中被转换成物理内存地址,通过物理内存地址就可以访问到真正存储这些数据结构的物理内存了。随后就可以对这块物理内存进行各种业务操作,从而完成业务逻辑。

3.1.虚拟内存

3.1.1.为什么要使用虚拟地址访问内存

  • 虚拟内存可以使得进程对运行内存超过物理内存大小,因为程序运行符合局部性原理,CPU 访问内存会有很明显的重复访问的倾向性,对于那些没有被经常使用到的内存,我们可以把它换出到物理内存之外,比如硬盘上的 swap 区域
  • 由于每个进程都有自己的页表,所以每个进程的虚拟内存空间就是相互独立的。进程也没有办法访问其他进程的页表,所以这些页表是私有的,这就解决了多进程之间地址冲突的问题
  • 页表里的页表项中除了物理地址之外,还有一些标记属性的比特,比如控制一个页的读写权限,标记该页是否存在等。在内存访问方面,操作系统提供了更好的安全性

用大白话描述

        既然物理内存地址可以直接定位到数据在内存中的存储位置,那为什么我们不直接使用物理内存地址去访问内存而是选择用虚拟内存地址去访问内存呢?

  1. 假设现在没有虚拟内存地址,我们在程序中对内存的操作全都都是使用物理内存地址,在这种情况下,程序员就需要精确的知道每一个变量在内存中的具体位置,我们需要手动对物理内存进行布局,明确哪些数据存储在内存的哪些位置,除此之外我们还需要考虑为每个进程究竟要分配多少内存?内存紧张的时候该怎么办?如何避免进程与进程之间的地址冲突?等等一系列复杂且琐碎的细节
  2. 虚拟内存引入之后,进程的视角就会变得非常开阔,每个进程都拥有自己独立的虚拟地址空间,进程与进程之间的虚拟内存地址空间是相互隔离,互不干扰的。每个进程都认为自己独占所有内存空间,自己想干什么就干什么。
  3. 当 CPU 访问进程的虚拟地址时,经过地址翻译硬件将虚拟地址转换成不同的物理地址,这样不同的进程运行的时候,虽然操作的是同一虚拟地址,但其实背后写入的是不同的物理地址,这样就不会冲突了。
  4. 分页的方式使得我们在加载程序的时候,不再需要一次性都把程序加载到物理内存中。我们完全可以在进行虚拟内存和物理内存的页之间的映射之后,并不真的把页加载到物理内存里,而是只有在程序运行中,需要用到对应虚拟内存页里面的指令和数据时,再加载到物理内存里面去

3.1.2.虚拟内存与物理内存映射

  • 我们程序所使用的内存地址叫做虚拟内存地址Virtual Memory Address
  • 实际存在硬件里面的空间地址叫物理内存地址Physical Memory Address

多级页表

TLB缓存

引入原因:多级页表虽然解决了空间上的问题,但是虚拟地址到物理地址的转换就多了几道查询页表转换的工序,这显然就降低了这俩地址转换的速度,也就是带来了时间上的开销。

TLB:页表缓存(又名“快表”)

3.2.malloc

3.2.1.malloc是如何分配内存的?

  • 方式一:通过 brk() 系统调用从堆分配内存
  • 方式二:通过 mmap() 系统调用在文件映射区域分配内存;

malloc() 源码里默认定义了一个阈值:

  • 如果用户分配的内存小于 128 KB,则通过 brk() 申请内存;
  • 如果用户分配的内存大于 128 KB,则通过 mmap() 申请内存;

3.2.2.malloc() 分配的是物理内存吗?

不是的,malloc() 分配的是虚拟内存。(如果分配后的虚拟内存没有被访问的话,虚拟内存是不会映射到物理内存的,这样就不会占用物理内存了)

3.2.3.malloc(1) 会分配多大的虚拟内存?

malloc() 在分配内存的时候,并不是老老实实按用户预期申请的字节数来分配内存空间大小,而是会预分配更大的空间作为内存池

3.2.4.free 释放内存,会归还给操作系统吗?

  • malloc 通过 brk() 方式申请的内存,free 释放内存的时候,并不会把内存归还给操作系统,而是缓存在 malloc 的内存池中,待下次使用
  • malloc 通过 mmap() 方式申请的内存,free 释放内存的时候,会把内存归还给操作系统,内存得到真正的释放

3.2.5.为什么不全部使用 mmap 来分配内存?

  1. 调用 mmap 来分配内存,每次都要执行系统调用
    1. 每次都会发生运行态的切换
    2. 还会发生缺页中断(在第一次访问虚拟地址后),这样会导致 CPU 消耗较大
  2. mmap 分配的内存每次释放的时候,都会归还给操作系统

为了改进上面的问题,malloc 通过 brk() 系统调用在堆空间申请内存的时候,由于堆空间是连续的,所以直接预分配更大的内存来作为内存池,当内存释放的时候,就缓存在内存池中。可以避免上面的问题。

3.2.6.为什么不全部使用 brk 来分配内存?

因为通过 brk 从堆空间分配的内存,并不会归还给操作系统,随着多次malloc和free,会导致出现内存碎片(内存在,但是无法被使用)

详细描述见下:

如果我们连续申请了 10k,20k,30k 这三片内存,如果 10k 和 20k 这两片释放了,变为了空闲内存空间,如果下次申请的内存小于 30k,那么就可以重用这个空闲内存空间。

但是如果下次申请的内存大于 30k,没有可用的空闲内存空间,必须向 OS 申请,实际使用内存继续增大。

因此,随着系统频繁地 malloc 和 free ,尤其对于小块内存,堆内将产生越来越多不可用的碎片,导致“内存泄露”。而这种“泄露”现象使用 valgrind 是无法检测出来的。

所以,malloc 实现中,充分考虑了 brk 和 mmap 行为上的差异及优缺点,默认分配大块内存 (128KB) 才使用 mmap 分配内存空间

3.2.7.free函数只传入一个内存地址,为什么能知道要释放多大的内存?

本质:内存块的头信息

malloc 返回给用户态的内存起始地址比进程的堆空间起始地址多了 16 字节吗?

这个多出来的 16 字节就是保存了该内存块的描述信息,比如有该内存块的大小。

这样当执行 free() 函数时,free 会对传入进来的内存地址向左偏移 16 字节,然后从这个 16 字节的分析出当前的内存块的大小,自然就知道要释放多大的内存了。

4.内存管理

4.1.内存满了,会发生什么?

4.1.1.内存分配的过程是怎样的?

应用程序通过 malloc 函数申请内存的时候,实际上申请的是虚拟内存,此时并不会分配物理内存。

当应用程序读写了这块虚拟内存,CPU 就会去访问这个虚拟内存, 这时会发现这个虚拟内存没有映射到物理内存, CPU 就会产生缺页中断,进程会从用户态切换到内核态,并将缺页中断交给内核的 Page Fault Handler (缺页中断函数)处理。

缺页中断处理函数会看是否有空闲的物理内存

  1. 如果有,就直接分配物理内存,并建立虚拟内存与物理内存之间的映射关系。
  2. 如果没有空闲的物理内存,那么内核就会开始进行回收内存的工作,回收的方式主要是两种:直接内存回收和后台内存回收。
  3. 如果直接内存回收后,空闲的物理内存仍然无法满足此次物理内存的申请,那么内核就会放最后的大招了 ——触发 OOM (Out of Memory)机制

内存回收

  • 后台内存回收(kswapd):在物理内存紧张的时候,会唤醒 kswapd 内核线程来回收内存,这个回收内存的过程异步的,不会阻塞进程的执行。
  • 直接内存回收(direct reclaim):如果后台异步回收跟不上进程内存申请的速度,就会开始直接回收,这个回收内存的过程是同步的,会阻塞进程的执行

OOM Killer

  • OOM Killer 机制会根据算法选择一个占用物理内存较高的进程,然后将其杀死,以便释放内存资源,如果物理内存依然不足,OOM Killer 会继续杀死占用物理内存较高的进程,直到释放足够的内存位置。

4.2.在4GB物理内存的机器上,申请8G内存会怎么样?

第一个问题「在 4GB 物理内存的机器上,申请 8G 内存会怎么样?」存在比较大的争议,有人说会申请失败,有的人说可以申请成功。

这个问题在没有前置条件下,就说出答案就是耍流氓。这个问题要考虑三个前置条件:

  • 操作系统是 32 位的,还是 64 位的?
  • 申请完 8G 内存后会不会被使用?
  • 操作系统有没有使用 Swap 机制?

所以,我们要分场景讨论

先说下结论:

  • 在 32 位操作系统,因为进程最大只能申请 3 GB 大小的虚拟内存,所以直接申请 8G 内存,会申请失败。
  • 在 64位 位操作系统,因为进程最大只能申请 128 TB 大小的虚拟内存,即使物理内存只有 4GB,申请 8G 内存也是没问题,因为申请的内存是虚拟内存。如果这块虚拟内存被访问了,要看系统有没有 Swap 分区:
    • 如果没有 Swap 分区,因为物理空间不够,进程会被操作系统杀掉,原因是 OOM(内存溢出);
    • 如果有 Swap 分区,即使物理内存只有 4GB,程序也能正常使用 8GB 的内存,进程可以正常运行;

4.2.1.操作系统虚拟内存大小

32 位操作系统和 64 位操作系统的虚拟地址空间大小是不同的,在 Linux 操作系统中,虚拟地址空间的内部又被分为内核空间和用户空间两部分,如下所示:

 通过这里可以看出:

  • 32 位系统的内核空间占用 1G,位于最高处,剩下的 3G 是用户空间;
  • 64 位系统的内核空间和用户空间都是 128T,分别占据整个内存空间的最高和最低处,剩下的中间部分是未定义的。

现在可以回答这个问题了:在 32 位操作系统、4GB 物理内存的机器上,申请 8GB 内存,会怎么样?

因为 32 位操作系统,进程最多只能申请 3 GB 大小的虚拟内存空间,所以进程申请 8GB 内存的话,在申请虚拟内存阶段就会失败(我手上没有 32 位操作系统测试,我估计失败的原因是 OOM)。

在 64 位操作系统、4GB 物理内存的机器上,申请 8G 内存,会怎么样?

64 位操作系统,进程可以使用 128 TB 大小的虚拟内存空间,所以进程申请 8GB 内存是没问题的,因为进程申请内存是申请虚拟内存,只要不读写这个虚拟内存,操作系统就不会分配物理内存。

4.2.2.Swap 机制的作用

前面讨论在 32 位/64 位操作系统环境下,申请的虚拟内存超过物理内存后会怎么样?

  • 在 32 位操作系统,因为进程最大只能申请 3 GB 大小的虚拟内存,所以直接申请 8G 内存,会申请失败。
  • 在 64 位操作系统,因为进程最大只能申请 128 TB 大小的虚拟内存,即使物理内存只有 4GB,申请 8G 内存也是没问题,因为申请的内存是虚拟内存。

程序申请的虚拟内存,如果没有被使用,它是不会占用物理空间的。当访问这块虚拟内存后,操作系统才会进行物理内存分配。

如果申请物理内存大小超过了空闲物理内存大小,就要看操作系统有没有开启 Swap 机制:

  • 如果没有开启 Swap 机制,程序就会直接 OOM;
  • 如果有开启 Swap 机制,程序可以正常运行。

什么是 Swap 机制?

        当系统的物理内存不够用的时候,就需要将物理内存中的一部分空间释放出来,以供当前运行的程序使用。那些被释放的空间可能来自一些很长时间没有什么操作的程序,这些被释放的空间会被临时保存到磁盘,等到那些程序要运行时,再从磁盘中恢复保存的数据到内存中。

        另外,当内存使用存在压力的时候,会开始触发内存回收行为,会把这些不常访问的内存先写到磁盘中,然后释放这些内存,给其他更需要的进程使用。再次访问这些内存时,重新从磁盘读入内存就可以了。

        这种,将内存数据换出磁盘,又从磁盘中恢复数据到内存的过程,就是 Swap 机制负责的。

总结:Swap 就是把一块磁盘空间或者本地文件,当成内存来使用,它包含换出和换入两个过程:

  • 换出(Swap Out) ,是把进程暂时不用的内存数据存储到磁盘中,并释放这些数据占用的内存;
  • 换入(Swap In),是在进程再次访问这些内存的时候,把它们从磁盘读到内存中来;

4.3.内存页面置换算法

4.3.1.缺页中断

在了解内存页面置换算法前,我们得先谈一下缺页异常(缺页中断)

当 CPU 访问的页面不在物理内存时,便会产生一个缺页中断,请求操作系统将所缺页调入到物理内存。

我们来看一下缺页中断的处理流程,如下图:

  1. 在 CPU 里访问一条 Load M 指令,然后 CPU 会去找 M 所对应的页表项。
  2. 如果该页表项的状态位是「有效的」,那 CPU 就可以直接去访问物理内存了,如果状态位是「无效的」,则 CPU 则会发送缺页中断请求。
  3. 操作系统收到了缺页中断,则会执行缺页中断处理函数,先会查找该页面在磁盘中的页面的位置。
  4. 找到磁盘中对应的页面后,需要把该页面换入到物理内存中,但是在换入前,需要在物理内存中找空闲页,如果找到空闲页,就把页面换入到物理内存中。
  5. 页面从磁盘换入到物理内存完成后,则把页表项中的状态位修改为「有效的」。
  6. 最后,CPU 重新执行导致缺页异常的指令。

Q:上面所说的过程,第 4 步是能在物理内存找到空闲页的情况,那如果找不到呢?

A:找不到空闲页的话,就说明此时内存已满了,这时候,就需要「页面置换算法」选择一个物理页,如果该物理页有被修改过(脏页),则把它换出到磁盘,然后把该被置换出去的页表项的状态改成「无效的」,最后把正在访问的页面装入到这个物理页中。

4.3.2.页面置换算法

  • 最佳页面置换算法:淘汰在「未来」最长时间不访问的页面
  • 先进先出置换算法:淘汰内存中驻留时间很长的页面
  • 最近最久未使用的置换算法:淘汰最长时间没有被访问的页面
  • 时钟页面置换算法:
  • 最不常用置换算法:淘汰「访问次数」最少的那个页面

5.如何避免「预读失效」和「缓存污染」的问题

先抛出2个问题:

  1. 操作系统在读磁盘的时候,会额外多读一些到内存中,但是最后这些数据也没用到,有什么改善的方法么?
  2. 批量读数据的时候,可能会把热点数据挤出去,这个有什么改善的方法么?

咋一看,以为是在问操作系统的问题,其实这两个题目都是在问如何改进 LRU 算法

因为传统的 LRU 算法存在这两个问题:

  • 「预读失效」导致缓存命中率下降(对应第一个题目)
  • 「缓存污染」导致缓存命中率下降(对应第二个题目)

常见的组件都进行了一定的优化

  • Redis 的缓存淘汰算法则是通过实现 LFU 算法来避免「缓存污染」而导致缓存命中率下降的问题(Redis 没有预读机制)。

  • MySQL 和 Linux 操作系统是通过改进 LRU 算法来避免「预读失效和缓存污染」而导致缓存命中率下降的问题。

这次,就重点讲讲 「MySQL的Buffer Pool」 和 「Linux 操作系统的页缓存」是如何改进 LRU 算法的?

 5.1.预读失效,怎么办? --- 冷热隔离

5.1.1.什么是预读机制?

Linux 操作系统为基于 Page Cache 的读缓存机制提供预读机制,一个例子是:

  • 应用程序只想读取磁盘上文件 A 的 offset 为 0-3KB 范围内的数据,由于磁盘的基本读写单位为 block(4KB),于是操作系统至少会读 0-4KB 的内容,这恰好可以在一个 page 中装下。
  • 但是操作系统出于空间局部性原理(靠近当前被访问数据的数据,在未来很大概率会被访问到),会选择将磁盘块 offset [4KB,8KB)、[8KB,12KB) 以及 [12KB,16KB) 都加载到内存,于是额外在内存中申请了 3 个 page;

上图中,应用程序利用 read 系统调动读取 4KB 数据,实际上内核使用预读机制(ReadaHead) 机制完成了 16KB 数据的读取,也就是通过一次磁盘顺序读将多个 Page 数据装入 Page Cache。

5.1.2.预读失效会带来什么问题?

如果这些被提前加载进来的页,并没有被访问,相当于这个预读工作是白做了,这个就是预读失效

如果这些「预读页」如果一直不会被访问到,就会出现一个很奇怪的问题,不会被访问的预读页却占用了 LRU 链表前排的位置,而末尾淘汰的页,可能是热点数据,这样就大大降低了缓存命中率 。

5.1.3.如何避免预读失效造成的影响?

我们不能因为害怕预读失效,而将预读机制去掉,大部分情况下,空间局部性原理还是成立的。

要避免预读失效带来影响,最好就是让预读页停留在内存里的时间要尽可能的短,让真正被访问的页才移动到 LRU 链表的头部,从而保证真正被读取的热数据留在内存里的时间尽可能长

那到底怎么才能避免呢?

Linux 操作系统和 MySQL Innodb 通过改进传统 LRU 链表来避免预读失效带来的影响,具体的改进分别如下:

  • Linux 操作系统实现两个了 LRU 链表:活跃 LRU 链表(active_list)和非活跃 LRU 链表(inactive_list)
  • MySQL 的 Innodb 存储引擎是在一个 LRU 链表上划分来 2 个区域:young 区域 和 old 区域

这两个改进方式,设计思想都是类似的,都是将数据分为了冷数据和热数据,然后分别进行 LRU 算法。不再像传统的 LRU 算法那样,所有数据都只用一个 LRU 算法管理

Linux 操作系统是如何避免预读失效带来的影响?

Linux 操作系统实现两个了 LRU 链表:活跃 LRU 链表(active_list)和非活跃 LRU 链表(inactive_list)

  • active list 活跃内存页链表,这里存放的是最近被访问过(活跃)的内存页;
  • inactive list 不活跃内存页链表,这里存放的是很少被访问(非活跃)的内存页;

有了这两个 LRU 链表后,预读页就只需要加入到 inactive list 区域的头部,当页被真正访问的时候,才将页插入 active list 的头部。如果预读的页一直没有被访问,就会从 inactive list 移除,这样就不会影响 active list 中的热点数据。

5.2.缓存污染,怎么办?

5.2.1.什么是缓存污染?

背景:

        虽然 Linux (实现两个 LRU 链表)和 MySQL (划分两个区域)通过改进传统的 LRU 数据结构,避免了预读失效带来的影响。

        但是如果还是使用「只要数据被访问一次,就将数据加入到活跃 LRU 链表头部(或者 young 区域)」这种方式的话,那么还存在缓存污染的问题

现象:当我们在批量读取数据的时候,由于数据被访问了一次,这些大量数据都会被加入到「活跃 LRU 链表」里,然后之前缓存在活跃 LRU 链表(或者 young 区域)里的热点数据全部都被淘汰了,如果这些大量的数据在很长一段时间都不会被访问的话,那么整个活跃 LRU 链表(或者 young 区域)就被污染了

5.2.2.缓存污染会带来什么问题?

我以 MySQL 举例子,Linux 发生缓存污染的现象也是类似。

当某一个 SQL 语句扫描了大量的数据时,在 Buffer Pool 空间比较有限的情况下,可能会将 Buffer Pool 里的所有页都替换出去,导致大量热数据被淘汰了,等这些热数据又被再次访问的时候,由于缓存未命中,就会产生大量的磁盘 I/O,MySQL 性能就会急剧下降。

注意, 缓存污染并不只是查询语句查询出了大量的数据才出现的问题,即使查询出来的结果集很小,也会造成缓存污染。

5.2.3.怎么避免缓存污染造成的影响?

产生的根本原因:LRU 算法只要数据被访问一次,就将数据加入活跃 LRU 链表(或者 young 区域),这种 LRU 算法进入活跃 LRU 链表的门槛太低了!正式因为门槛太低,才导致在发生缓存污染的时候,很容就将原本在活跃 LRU 链表里的热点数据淘汰了

所以,只要我们提高进入到活跃 LRU 链表(或者 young 区域)的门槛,就能有效地保证活跃 LRU 链表(或者 young 区域)里的热点数据不会被轻易替换掉

Linux 操作系统和 MySQL Innodb 存储引擎分别是这样提高门槛的:

  • Linux 操作系统:在内存页被访问第二次的时候,才将页从 inactive list 升级到 active list 里。
  • MySQL Innodb:在内存页被访问第二次的时候,并不会马上将该页从 old 区域升级到 young 区域,因为还要进行停留在 old 区域的时间判断
    • 如果第二次的访问时间与第一次访问的时间在 1 秒内(默认值),那么该页就不会被从 old 区域升级到 young 区域;
    • 如果第二次的访问时间与第一次访问的时间超过 1 秒,那么该页就从 old 区域升级到 young 区域;

提高了进入活跃 LRU 链表(或者 young 区域)的门槛后,就很好了避免缓存污染带来的影响。

在批量读取数据时候,如果这些大量数据只会被访问一次,那么它们就不会进入到活跃 LRU 链表(或者 young 区域),也就不会把热点数据淘汰,只会待在非活跃 LRU 链表(或者 old 区域)中,后续很快也会被淘汰

6.页面置换算法

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
### 回答1: 《编译系统透视:图解编译原理》是一本以图解为主导的编译原理教材。编译原理是计算机科学中的一门重要课程,主要研究编译器的设计和实现方法。 《编译系统透视:图解编译原理》通过直观的图解方式,清晰地阐述了编译器的工作原理和各个环节的具体实现。书中从语言的词法分析、语法分析、语义分析,到代码生成和优化等方面,系统地介绍了编译器的整个工作流程。 这本教材的一大特色是使用大量的图示来展示编译器的各个过程,这使得抽象和复杂的概念变得直观易懂。图解的方式可以帮助读者更好地理解编译器的工作原理,并且能够通过具体的例子更好地掌握编译器设计和实现的方法。 《编译系统透视:图解编译原理》适合计算机相关专业的学生和从事编译器开发相关工作的人员阅读。对于初学者来说,这本书可以帮助他们建立对编译原理的基本理解和认知。对于已经具备一定编译器基础的人员来说,这本书可以帮助他们进一步深入理解编译器的实现细节和技术要点。 总之,《编译系统透视:图解编译原理》是一本十分优秀的编译原理教材,通过图解的方式生动展示了编译器的工作原理,不仅有助于读者理解编译原理的基本概念,也有助于读者掌握编译器的设计和实现方法。 ### 回答2: 《编译系统透视:图解编译原理》是一本由高级程序设计语言编译原理方面的专家撰写的编译原理教材。该书结合图解的方式,以简明易懂的语言介绍了编译系统的基本概念和原理,帮助读者理解编译器的工作原理及其在程序开发中的作用。 书中首先介绍了编译器的基本功能和作用,以及编译器的主要组成部分,如词法分析器、语法分析器等。然后,通过具体的案例分析,详细解释了编译器的各个组成部分的工作流程和原理,并伴有大量的示意图,有助于读者更好地理解。特别是对一些较为复杂的编译原理概念,如语法分析树、中间代码生成等,通过图解的方式进行了详细解释。 同时,该书还介绍了一些实际的编译器实现技术和工具,如词法分析器生成器、语法分析器生成器等。这些工具的使用可以大大简化编译器的实现过程,并提高编译器的效率和可靠性。书中提供了对这些工具的简单介绍和使用方法,帮助读者快速上手。 总的来说,《编译系统透视:图解编译原理》是一本非常实用的编译原理入门教材,它不仅讲解了编译器的基本原理和工作流程,还介绍了一些实用的工具和技术。通过学习这本书,读者不仅可以对编译原理有一个全面的了解,还可以更好地理解和使用现有的编译器工具。无论是对正在学习编译原理的学生,还是对从事程序开发的程序员来说,这本书都是一本不可多得的参考书。 ### 回答3: 编译系统透视:图解编译原理是一本图文并茂的编译原理教材,通过图解的方式生动地介绍了编译系统的工作原理和过程。编译系统是将高级程序语言转换成可执行代码的工具,它包括词法分析、语法分析、语义分析、中间代码生成、代码优化和目标代码生成等多个阶段。 该书首先介绍了编译系统的基本概念和作用,并通过图示来解释编译器的组成部分。然后,详细讲解了编译器的各个阶段,包括词法分析器的工作原理、语法分析器的LL(1)文法和LR分析方法、语义分析器的类型检查和符号表管理等内容。同时,还揭示了中间代码生成、代码优化和目标代码生成的关键技术和原理。 该书以通俗易懂的方式介绍编译器相关的核心概念和算法,通过图解的方式形象地展示整个编译过程,使读者能够更好地理解和掌握编译原理。此外,书中还提供了大量的实例和练习题,帮助读者加深对编译原理的理解和应用。 总之,编译系统透视:图解编译原理是一本理论与实践相结合的编译原理教材,适合计算机相关专业的学生和从事编译器开发的工程师阅读。它通过图解的方式使抽象的编译原理变得直观易懂,帮助读者深入了解编译系统的运作机制,提高编写高效编译器的能力。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值