基础｜01｜CPU缓存知识（待完善0.3）

最新推荐文章于 2024-09-28 14:37:43 发布

刘卡卡阿

最新推荐文章于 2024-09-28 14:37:43 发布

阅读量896

点赞数 1

分类专栏：操作系统文章标签：缓存

本文链接：https://blog.csdn.net/lililuni/article/details/122633769

版权

操作系统专栏收录该内容

12 篇文章 5 订阅

订阅专栏

（写在前面，本文还没写完，争取在2022.2.1前写完，觉得可以的话，可以先关注噢）

概览

由于各存储结构的速度不同，容量和价格上也不同，因此

1、对于单个CPU产生了缓存架构

既然有了缓存，那么在多核中，怎么解决高速缓存一致性？

2、缓存一致性

MESI协议确保了缓存一致性，该类型协议保证了多CPU的缓存之间同步

但该协议存在一些性能上的问题，因此，便有了Store buffer 机制，但Store buffer并不能保证变量写入缓存和主存的顺序。

3、便有了内存屏障，该技术规定了一些操作必须在某些操作之后。

一、CPU缓存架构

各存储结构的速度比较

缓存物理架构

CPU读取存储器数据过程

1、CPU要取寄存器X的值，只需要一步：直接读取。

2、CPU要取L1 cachel的某个值，需要1-3步（或者更多）：把cache:行锁住，把某个数据拿来，解

锁，如果没锁住就慢了。

3、CPU要取L2 cachel的某个值，先要到L1 cache里取，L1当中不存在，在L2里，L2开始加锁，加

锁以后，把L2里的数据复制到L1,再执行读L1的过程，上面的3步，再解锁。

4、CPU取L3 cachel的也是一样，只不过先由L3复制到L2,从L2复制到L1,从L1到CPU。

5、CPU取内存则最复杂：通知内存控制器占用总线带宽，通知内存加锁，发起内存读请求，等待

回应，回应数据保存到L3(如果没有就到L2),再从L3/2到L1,再从L1到CPU,之后解除总线锁

定。

寄存器并不每次数据都可以从缓存中取得数据，万一不是同一个内存地址中的数据，那寄存器还必须直接绕过缓存从内存中取数据。所以并不每次都得到缓存中取数据，这种现象有个专业的名称叫做缓存的命中率

二、缓存相关概念

缓存行

cache line 是缓存进行管理的一个最小存储单元，也叫缓存块。从内存向缓存加载数据也是按缓存块进行加载的，一个缓存块和一个内存中相同容量的数据块（下称内存块）对应。

缓存行大小通常为64byte。缓存行是什么意思呢？比如你的L1缓存大小是512kb,而cacheline=64byte,那么就是L1里有512*1024/64个cacheline

底层对于缓存行的管理存在很多方式，因为太过底层，先不记录，详细参考14 | CPU Cache：访存速度是如何大幅提升的？-极客时间

程序局部性

局部性是虚拟内存的基础，在程序运行时，可只装入部分程序的内存。局部性主要分为时间局部性和空间局部性，空间局部性简单来说就是在程序的一个存储位置被引用，那么其附近的位置也将被引用；

因此，在缓存结构中，通常会加载临近的内存都到缓存中（具体怎么加载？），也正因此，下面代码会存在一些性能上的差异

详细分析见 14 | CPU Cache：访存速度是如何大幅提升的？-极客时间

/**
当按行访问时地址是连续的，下次访问的元素和当前大概率在同一个 cache line
（一个元素 8 字节，而一个 cache line 可以容纳 8 个元素），
但是当按列访问时，由于地址跨度大，下次访问的元素基本不可能还在同一个 cache line，
因此就会增加 cache line 被替换的次数，所以性能劣化。
*/
a = new long[1024*1024][6];
//省略初始化过程
for(int i = 0; i < 1024*1024; i++) {   
  for(int j = 0; j < 6; j++) {   
    // 按行相加
    a[i][j]++;     
  } 
} 

for(int j = 0; j < 6; j++) {   
  for(int i = 0; i < 1024*1024; i++) {   
    //按列相加
    a[i][j]++;     
  } 
}