备注:本文仅仅是个人阅读书本《大话处理器》Cache章节的笔记内容,作为初入Cache业务从业者的基础知识;既是阅读笔记,目录章节划分将直接参照书本。
第5章 Cache-处理器的“肚量”
CPU内部有一段存储空间,内存在里面留下了一些数据,这段空间就是Cache。
5.1 什么是Cache
5.1.2 处理器的Cache
在我们实际使用处理器时,程序的并行性优先,不能将处理器的资源全部利用,内存速度远远跟不上处理器的速度。程序和数据都在内存中,程序和数据迟迟进不了处理器。
为了弥补内存速度低下的问题,处理器内部会放置一些SRAM做Cache,以提高处理器访问程序和数据的速度。Cache作为连接内核和内存的桥梁:
为什么处理器内部加了一个速度快、容量小的Cache就能提速?时间局部性和空间局部性
时间局部性:如果某个数据被访问,那么在不久的将来它很可能再次被访问。最典型的例子就是循环,循环体代码被处理器重复的执行,知道循环结束。如果将循环体代码放在Cache中,只是第一次取这些代码需要耗费时间,以后这些代码每次都能被内核快速的访问。
空间局部性:如果某项数据被访问,那么与它相邻的数据很可能很快被访问。最典型的例子就是数组,数组中的元素常常按照顺序依次被程序访问。那字典呢?
我们一般以延时和吞吐量两个标准衡量内存的速度,所说的内存速度慢,主要指的是延时,即一次访问需要很长时间才能完成,但是这并不代表一次访问能够传输很多东西,这里便是吞吐量大。我们一次将数组中的多个元素从内存中复制到Cache中,虽然访问第一个元素需要花费一些时间,但是访问以后的元素就快了,这便是Cache在空间局部性上的应用。
5.2 处理器的Cache结构
5.2.1 Cache的层次-层次化管理
现在的处理器,都采用多级的Cache组织形式,以达到性能和功耗的最优。
单核处理器通常包含两级Cache,L1 Cache和L2 Cache,程序Program和数据Data使用各自的缓存L1P和L1D,而在L2中,程序和数据共用一套缓存。
当内核需要访问程序或数据时,会先从L1中取,如果L1中没有,则L1从L2中将数据导入,如果L2中也没有,则L2从内存中将数据导入。
L1通常和内核同频率,以保证速度,L2通常会降频使用,工作频率比内核低,这样能够降低功耗。
在多核处理器中,一般每个内核独享自己的L1和L2,所有的内核会共用一个大容量的L3。
5.2.2 Cache的工作方式-命中与未命中
整个Cache空间被分成了N个line,每个line(Cache line)通常是32byte、64byte等,Cache line是Cache和内存交换数据的最小单位,每个Cache line由block、tag、valid三个部分构成:
block,存储内存在Cache中缓存的数据;
tag,存储该Cache line对应的内存块的地址;
valid,表示该Cache line中的数据是否有效;
当内核访问一个数据时,内核首先在Cache中找,一开始自然找不到,于是就发生了Cache miss(未命中),这时内存中的数据被导入到一个Cache line的block中,将地址写到相应的tag位置处,并将valid置1。当下一次内核继续访问这个数据时,处理器根据地址在Cache中找到对应的Cache line,发现valid标志为1并且tag标志也匹配,便知道找到了数据,直接从Cache中取该数据,这个过程叫Cache hit。