ARM920T的CP15协处理器

最新推荐文章于 2020-12-25 21:19:55 发布

龙图腾

最新推荐文章于 2020-12-25 21:19:55 发布

阅读量1.2k

点赞数

分类专栏：嵌入式开发文章标签： cache translation buffer table c crm

嵌入式开发专栏收录该内容

170 篇文章 4 订阅

订阅专栏

Cache

ARM920T有16K的数据Cache和16K的指令Cache，这两个Cache是基本相同的，数据Cache多了一些写回内存的机制，后面我们以数据Cache为例来介绍Cache的基本原理。我们已经知道，Cache中的存储单位是Cache Line，ARM920T的一个Cache Line是32字节，因此16K的Cache由512条Cache Line组成。要了解Cache的基本原理，我们从如何设计Cache这个问题入手。

设计Cache的一种最朴素的想法是，把VA分成以32字节为单位，从任何一个对齐到32字节地址边界的VA开始连续的32个字节（比如0x00- 0x1f，0x20-0x3f，0x40-0x5f等等）都可以缓存到512条Cache Line中的任何一条。那么一条Cache Line中的32个字节怎么知道是来自哪个VA的呢？这就需要把VA也保存在Cache中，由于这32字节的起始地址是对齐到32字节地址边界的，末5位全为0，因此只需要保存VA[31:5]即可，这称为VA Tag[4]，Tag是VA的一部分，是Cache Line中数据的标识，表明这32字节数据来自哪个VA。这样设计的Cache称为全相联Cache（Fully Associative Cache），图示如下：

图 17. 全相联Cache

给定一个VA，如何在Cache中查找对应的数据呢？首先到Cache中比较查找哪一行的Tag等于VA[31:5]，找到对应的Cache Line后，再根据VA[4:0]决定要访问的是该Cache Line缓存的32个字节中的哪一个字节。由于有512条Cache Line，如果这个VA没有缓存在Cache中则需要比较512次才知道，这是最坏的情况，也是最常见的情况，下面我们要改进Cache的设计来解决这个问题。

全相联Cache的特点是任何VA都可以缓存到任何一条Cache Line，给定一个VA做查找时，由于它有可能缓存在512条Cache Line中的任何一条，就只好全部都找一遍了。如果限定某一个VA只允许缓存在某一条Cache Line中，那么查找的过程就快多了：检查一下应该缓存这个VA的那条Cache Line，看Tag一致不一致，如果一致就是Cache Hit，如果不一致就是Cache Miss，可以直接访问物理内存而不必再找其它Cache Line了。这种设计称为直接映射Cache（Direct Mapped Cache），如下图所示：

图 18. 直接映射Cache

地址0~31应该缓存在第1条Cache Line中，地址32~63应该缓存在第2条Cache Line中，依此类推，地址16352~16383应该缓存在第512条Cache Line中，下一个地址应该是16384（16K）了，我们又回到开头，地址16K~16K+31应该缓存在第1条Cache Line中，地址16K+32~16K+63应该缓存在第2条Cache Line中，依此类推，再次回到开头的地址应该是32K，32K~32K+31应该缓存在第1条Cache Line中，32K+32~32K+63应该缓存在第2条Cache Line中，依此类推。读者应该可以总结出规律了：给定一个VA，将它除以16K得的余数决定了它应该缓存在哪一条Cache Line中，那么除以16K的商数部分就应该是VA Tag，用以区别Cache Line中缓存的到底是0还是16K还是32K地址上的数据。那么除以16K的商数和余数怎么表示呢？VA[31:14]就是除以16K的商数，VA [13:0]就是余数，所以上图的Tag处标着VA[31:14]。余数VA[13:0]是16K Cache里的一个字节偏移量，而Cache是按32字节一个Cache Line组织的，所以余数中的高位VA[13:5]决定了是第几条Cache Line，余数中的低位VA[4:0]决定了Cache Line内的字节偏移量。验算一下，VA[13:5]一共是9位，作为Cache Line的编号可以表示的Cache Line数目正是512条。

直接映射Cache虽然查找速度很快，但也有缺点。比如，地址0~31、16K~16K+31、32K~32K+31都应该缓存到第1条Cache Line中，假如我们程序第一次访问地址30，地址0~31的数据就从内存加载到第1条Cache Line，以便下次访问能更快一些，但是我们程序第二次访问的却是地址32770，地址32K~32K+31的数据就要从内存加载到第1条Cache Line，把Cache Line里原来存的地址0~31的数据替换掉，以便下次访问能更快一些，但是我们程序第三次访问的却是地址16392……这样下去，Cache起不到任何加速作用，形同虚设，这种问题称为Cache抖动（Cache Thrash）。全相联Cache就不会有这种问题，因为任何VA都可以缓存到任何一条Cache Line，可以把先后几次访问的VA缓存到不同的Cache Line，就不会相互冲突。
全相联Cache和直接映射Cache各有优缺点，全相联Cache查找很慢，但没有抖动问题，直接映射Cache则正相反。为了得到更好的性能，实际CPU的Cache设计是取两者的折衷，把所有Cache Line分成若干个组，每一组有n条Cache Line，称为n路组相联Cache（n-way Set Associative Cache）。ARM920T采用64路组相联Cache，如下图所示：

图 19. 64路组相联Cache

有了前面两种Cache概念的基础，这种Cache应该很好理解，512条Cache Line分成8组，每组64条，地址0-31、256-587、512-543等等可以缓存到第1组64条Cache Line中的任何一条，地址32-63、288-319、544-575等等可以缓存到第2组64条Cache Line中的任何一条，依此类推。为什么说组相联Cache是全相联和直接映射Cache的一个折衷呢？如果把组分得很大，把全部Cache Line都分到一个组里面去，就变成了全相联Cache；如果把组分得很小，每组只有一个Cache Line，就变成了直接映射Cache。作为练习，请读者自己计算一下为什么VA Tag是VA[31:8]，为什么组的编号用VA[7:5]表示。

那么，为什么组相联Cache的性能比直接映射Cache要好呢？一方面，组相联Cache把一条Cache Line上的冲突分散到了64条Cache Line上，起到了64倍的积极作用。而另一方面，应该缓存到同一个组的VA更多了：对于直接映射Cache，在同一个组（也就是同一条Cache Line）互相冲突的VA有4G/512个；对于组相联Cache，在同一个组（64条Cache Line）互相冲突的VA有4G/8个。从这个数量关系来看，组相联Cache又起到了64倍的消极作用。难道这两种作用不会完全抵销吗？我不打算从数学上严格证明，这不是本节的重点，读者可以通过一个生活常识的例子来理解：层数一样多的两栋楼，其中一栋楼是一部电梯，每层三户，而另一栋楼是两部电梯，每层六户，每户的平均人数一样多，你认为在哪个楼里等电梯的时间较短呢？

接下来解释一下有关Cache写回内存的问题。Cache写回内存有两种模式：

Write Back：Cache Line中的数据被CPU核修改时并不立刻写回内存，Cache Line和内存中的数据会暂时不一致，在Cache Line中有一个Dirty位标记这一情况。当一条Cache Line要被其它VA的数据替换时，如果不是Dirty的就直接替换掉，如果是Dirty的就先写回内存再替换。

Write Through：每当CPU核修改Cache Line中的数据时就立刻写回内存，Cache Line和内存中的数据总是一致的。如果有多个CPU或设备同时访问内存，例如采用双口RAM，那么Cache中的数据和内存保持一致就非常重要了，这时相关的内存页面通常配置为Write Through模式。

通过读写CP15的相关寄存器，可以对Cache做以下操作：

Clean：将Cache Line中的数据写回内存，清除Dirty位。在程序中的某些同步点上用于确保Cache Line和内存中的数据一致。

Invalidate：在Cache Line中有一个Invalid位表示无效，将这个位置1，下次要访问时即使VA Tag匹配也重新从内存读取数据。例如进程切换时需要声明前一个进程缓存在Cache中的数据无效。

Lock：将某个地址的数据锁定在Cache中，确保不被替换掉。在实时系统中，这样做可以保证某个地址的数据能在一个确定的时间内访问到。

从Cache中查找要访问的数据时用的是VA，但是Cache写回内存要用PA，如果写回内存时还需要查一遍页表就太没有效率了，所以实际上每条Cache Line中还保存了PA[31:5]（PA Tag），完整的Cache构造如下图所示：

图 20. PA Tag

最后解决我们前面遗留的一个问题：页描述符中的C、B位具体是什么意思？

表 2. 页描述符中C、B位的含义

C位为1表示允许Cache，这种情况下用B位来表示Write Through还是Write Back。有些页面不允许Cache，置C位为0，这种情况下可以用B位来选择是否允许使用Write Buffer。Write Buffer也是一种简单的Cache，CPU核执行写指令时可以把数据交给Write Buffer，然后由Write Buffer负责写回内存，这时CPU可以执行后续指令而不必等待写回内存这个较慢的操作结束。想一下，既然有Write Buffer，为什么没有Read Buffer？

ARM920T的CP15协处理器

ARM920T的MMU和Cache都集成在CP15协处理器中，MMU和Cache的联系非常密切，本节首先从总体上介绍MMU、Cache和CPU核是如何协同工作的，后面两节分别讲解MMU和Cache的细节。三星公司的S3C2410是一种很常见的采用ARM920T的芯片，涉及到具体的芯片时我们以S3C2410为例。

以下是CP15协处理器的寄存器列表（摘自[S3C2410用户手册]），和CPU核的r0到r15寄存器一样，协处理器寄存器也是用0到15来编号，在指令中用4个bit来表示寄存器编号，有些协处理器寄存器有影子寄存器，这种情况下对同一个编号的寄存器使用不同的选项读或者写实际上访问的是不同的寄存器，后文用到某个寄存器时会详细说明它的功能。

表 1. CP15协处理器的寄存器列表

对CP15协处理器的操作使用mcr和mrc两条协处理器指令，这两条指令的记法是从后往前看：mcr是把r（CPU核寄存器）中的数据传送到c（协处理器寄存器）中，mrc则是把c（协处理器寄存器）中的数据传送到r（CPU核寄存器）中。对CP15协处理器的所有操作都是通过CPU核寄存器和CP15 寄存器之间交换数据来完成的。下图是协处理器的指令格式（摘自[S3C2410用户手册]）。

图 8. 协处理器指令格式

和其它ARM指令一样，Cond是条件码，bit 20是L位，表示该指令是读还是写，如果L=1就表示Load，从外面读到CPU核中，也就是mrc指令，如果L=0就表示Store，也就是mcr指令。[11:8]这四个位是协处理器编号，CP15的编号是15，因此是4个1。CRn是CP15寄存器编号，Rd是CPU核寄存器编号，各占4个位。对于CP15协处理器，规定opcode1应该为0，opcode2和CRm是指令的选项，具体含义取决于不同的寄存器。

虽然这里介绍了协处理器的寄存器编号和相关指令，但读者只需了解对协处理器是这样进行操作的就可以了，我们的重点是讲解MMU和Cache的基本概念，具体各种操作的指令该怎么写可以参考[S3C2410用户手册]。

MMU是如何把VA映射成PA的呢？从图 4 “进程地址空间是独立的”来看，好像是有一张VA转PA的表，给一个VA查表就可以查到PA，实际上并不是这么简单，通常要有一个多级的查表过程，对于 ARM体系结构是两级查表，对于一些64位体系结构则需要更多级。看下面的图示。

图 9. Translation Table Walk

首先将32位的VA[3]分成三段，前两段[31:20]和[19:12]作为两次查表的索引，第三段[11:0]作为页内的偏移。查表的步骤如下：

1 CP15协处理器的TTB寄存器（看看表 1 “CP15协处理器的寄存器列表”中这是第几个寄存器？）中保存着第一级页表（Translation Table）的基地址，这个基地址指的是PA，也就是说页表是直接按这个地址存在物理内存中的。

2 以TTB中的内容为基地址，以VA[31:20]为索引在表中查出一项（想一下这个表中一共有多少项？），这个表项中保存着第二级页表（Coarse Page Table）的基地址，同样是物理地址，也就是说第二级页表也是直接按这个地址存在物理内存中的。

3 以VA[19:12]为索引在第二级页表中查出一项（想一下这个表中一共有多少项？），这个表项中就保存着物理页面的基地址，先前我们说虚拟内存管理是以页为单位的，一个虚拟内存的页映射到一个物理内存的页框，从这里就可以得到印证，因为查表是以页为单位来查的。

4 有了物理页面的基地址之后，加上VA[11:0]这个偏移量就可以取出相应地址上的数据（想一下一个页是多少字节？）。

这个过程称为Translation Table Walk，Walk这个词用得非常形象。从TTB走到一级页表，又走到二级页表，又走到物理页面，一次寻址其实是三次访问物理内存。注意这个“走”的过程完全是硬件做的，每次CPU寻址时MMU就自动完成以上四步，不需要编写指令指示MMU去做，前提是操作系统要维护页表项的正确性，每次分配内存时填写相应的页表项，每次释放内存时清除相应的页表项，在必要的时候分配或释放整个页表。

有了以上基本概念，我们来看CPU访问内存时的硬件操作顺序（摘自[ARM参考手册]）。

图 10. CPU访问内存时的硬件操作顺序

我们以CPU读内存为例解释一下图中的步骤，各步骤在图中有对应的标号。

1 CPU核（图中的“ARM”框）发出VA请求读数据，TLB（Translation Lookaside Buffer）接收到该地址。TLB是MMU中的一块高速缓存（也是一种Cache），它缓存最近查找过的VA对应的页表项，如果TLB里缓存了当前VA 的页表项就不必做Translation Table Walk了，否则去物理内存中读出页表项保存在TLB中，TLB缓存可以减少访问物理内存的次数。

2 页表项中不仅保存着物理页面的基地址，还保存着权限位和是否允许Cache的标志。MMU首先检查权限位，如果没有访问权限，就引发一个异常给CPU核。然后检查是否允许Cache，如果允许Cache就启用Cache和CPU核互操作，图中的“C, B bits”可以理解为选通线，后面再详细解释这两个位的作用。

3 如果不允许Cache，则直接发出PA从物理内存中读取数据到CPU核。

4 如果允许Cache，则以VA为索引到Cache中查找是否缓存了要读取的数据，如果Cache中已经缓存了该数据（称为Cache Hit）则直接返回给CPU核，如果Cache中没有缓存该数据（称为Cache Miss），则发出PA从物理内存中读取数据并缓存到Cache中，同时返回给CPU核。然而Cache并不是只取CPU核所要的数据，而是把相邻的数据都取上来缓存，这称为一个Cache Line。ARM920T的Cache Line是32字节，例如CPU核要读取地址0x134-0x137的4字节数据，Cache会把地址0x120-0x13f（对齐到32字节地址边界）的32字节都取上来缓存。