cpu性能探究-Linux Cache机制

最新推荐文章于 2025-03-03 21:43:07 发布

孙飞 Sunface

最新推荐文章于 2025-03-03 21:43:07 发布

阅读量5.2k

点赞数 1

文章标签： cache cpu linux内核

本文链接：https://blog.csdn.net/erlib/article/details/40539499

版权

本文深入探讨了Linux Cache机制，解析了cache的结构、映射机制和性能影响，重点关注了多核环境下的伪共享问题及其解决方案。通过理解cache的工作原理，可以优化代码以提高性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cpu性能探究-Linux Cache机制

在阅读文章前，您应该具备基本的存储器层次结构知识，至少要了解局部性原理。要详细了解cache基本原理，可以参考本书《深入理解计算机系统》中存储器体系结构一章：

带着疑问来看文章，cache对于程序员是不可见的，它完全是由硬件控制的，为什么在linux内核中还有cache.h这个头文件，定义了一些关于cache的结构？

1. cache概述

cache，中译名高速缓冲存储器，其作用是为了更好的利用局部性原理，减少CPU访问主存的次数。简单地说，CPU正在访问的指令和数据，其可能会被以后多次访问到，或者是该指令和数据附近的内存区域，也可能会被多次访问。因此，第一次访问这一块区域时，将其复制到cache中，以后访问该区域的指令或者数据时，就不用再从主存中取出。

2. cache结构

假设内存容量为M，内存地址为m位：那么寻址范围为000…00~FFF…F(m位)

倘若把内存地址分为以下三个区间：

《深入理解计算机系统》p305 英文版 beta draft

tag, set index, block offset三个区间有什么用呢？再来看看Cache的逻辑结构吧：

将此图与上图做对比，可以得出各参数如下：

B = 2^b

S = 2^s

现在来解释一下各个参数的意义：

一个cache被分为S个组，每个组有E个cacheline，而一个cacheline中，有B个存储单元，现代处理器中，这个存储单元一般是以字节(通常8个位)为单位的，也是最小的寻址单元。因此，在一个内存地址中，中间的s位决定了该单元被映射到哪一组，而最低的b位决定了该单元在cacheline中的偏移量。valid通常是一位，代表该cacheline是否是有效的(当该cacheline不存在内存映射时，当然是无效的)。tag就是内存地址的高t位，因为可能会有多个内存地址映射到同一个cacheline中，所以该位是用来校验该cacheline是否是CPU要访问的内存单元。

当tag和valid校验成功是，我们称为cache命中，这时只要将cache中的单元取出，放入CPU寄存器中即可。

当tag或valid校验失败的时候，就说明要访问的内存单元(也可能是连续的一些单元，如int占4个字节，double占8个字节)并不在cache中，这时就需要去内存中取了，这就是cache不命中的情况(cache miss)。当不命中的情况发生时，系统就会从内存中取得该单元，将其装入cache中，与此同时也放入CPU寄存器中，等待下一步处理。注意，以下这一点对理解linux cache机制非常重要：

最低0.47元/天解锁文章