MIPS--cache管理_mips cache-CSDN博客

http://hi.baidu.com/qq520131714/blog/item/0f6adafefa7058365c600898.html

MIPS--cache管理

没有Cache的MIPSCPU不能称为真正的RISC。可能这样说不公平。但为了一些特殊的目的，你可以设计一个含有小而紧密内存的MIPSCPU，而这些内存只需要固定个数的流水线步骤（最好是一个）就可以被访问到。但绝大部分MIPS CPU都是含有cache的。
这一章将介绍MIPS的cache怎样工作和软件应该怎么做才能使它可以被使用而且是可靠的。MIPSCPU重新启动后，cache的状态是不确定的，所以软件必须非常小心。你有一些线索知道cache的大小（如果你直接知道cache的大小后去初始化，这是一个不好的软件习惯。）。对于诊断程序员，我们将讨论怎样测试cache和获取特殊入口。
对于实时应用程序的程序员，希望在CPU运行时能够正确地控制cache。我们也将讨论怎么做，虽然我对使用一些窍门方式有怀疑。
当然这些也随着MIPSCPU的发展而进步。对于早期的32位MIPS处理器，初始化cache或者使其无效，首先让cache进入一种特殊的状态，然后通过普通的读写操作来完成。对于后来的处理器，一些特殊的指令被定义出来做这些相关的操作。

4.1 cache和cache的管理
cache的工作就是将内存中的一部分数据在cache中保留一个备份，使这些数据能一个固定的极短的时间内被快速的存取并返回给CPU，这样能保证流水线的连续运行。
绝大部分MIPSCPU针对指令和数据有其各自的cache（分别称为Icache和Dcache)，这样读一条指令和一个数据的读操作或者写操作就能同时发生。
老的CPU家族（象x86)为了保证被写入CPU的代码的一致性，所以没有cache。现在的x86芯片拥有更灵活的硬件设计，从而保证软件没有必要从更本上了解cache（如果你正在装一台机器跑MS/DOS，它将在本质上提供一致性）。
但因为MIPS机器有各自的cache，所以就没有必要那么灵活。cache对于应用程序来说必须是透明的，除了除了能感觉到运行速度的增加。但对于系统程序或者驱动程序，拥有cache的MIPSCPU并没有尝试cache对它们也是透明的。cache仅仅使CPU跑得更快，而不能给系统程序员有所帮助。在象Unix一类的操作系统中，操作系统能对应用程序完全隐藏cache，当然对于更多不能的胜任的操作系统，其也能很好的隐藏大部分cache的处理，但你可能必须知道在什么时候需要调用适当的子程序来对cache做一些必要操作。

4.2 cache怎样工作
从概念上讲，cache是一个相连内存（associative memory），当数据被写入时用数据的一部分作为关键字来标志的一块存储区域。在cache中，关键字是整个内存的地址。提供一个相同的关键字给相连内存，你将得到相同的数据。一个真实的相连内存在存入条目时，将完全按照它们的关键字，除非它已经满了。然而，由于需要这个当前的关键字必须和所有被存的关键字同时比较，因此任何大小的真实相连内存不是效率低或速度慢，或者就是两者都有。
怎样我们才能设计有用的高速缓存，使其不仅效率高而且速度快呢？图4.1展示了一种最简单高速缓存的基本设计方案，直接映射（direct-mapped）高速缓存。它被1992年以前的MIPSCPU广泛使用。
直接映射cache由许多块简单的高速缓存排列构成（通常每一块称之为一line），通过地址低位在整个范围内做索引。cache的每一条line都包含一个字或者几个字的数据和一个标签（tag）区域，tag记录着数据所在内存的地址。
当一个读操作时，每一条line都可以被访问到，tag将和内存地址的高位做比较；如果匹配的话，我们知道是找到正确的数据了，这被称之为命中（hit）。如果在这一块中有超过一个字的数据，对应的那个字的数据通过地址的最低几位来选择出来。
如果tag没有匹配，这称之为没有命中（miss），那么数据需要从内存中读入，然后复制到cache对应的line中。这对应line中原来的数据将会被抛弃，如果CPU又需要被抛弃的数据时，需要再次从内存中取得。
这样的直接映射cache有一个特征，就是对于任何一个内存地址，在高速缓存中只有唯一的一条line可以用来保存其数据。这样有好处也有坏处。好处就是这样的架构简单，可以使CPU跑得更快。但简单也有其不好的一面：如果你的程序要不停地交替使用两个数据，而它们刚好要对应高速缓存中的同一块（可能是它们对应内存地址的低位刚好一样），这样这两个数据就会不停的将对方替换出高速缓存，以至高速缓存的效率被彻底的降下来。
而真正的相连内存将不会遇到这样的折腾，但对于任何合理大小，它将是难以想象的复杂、昂贵和速度缓慢。
折衷的办法就是使用two-way set-associative cache，其实就是两个direct-mapped cache并联，在它们中同时匹配内存位置。如图4.2。这时对应一个地址将有两次机会命中。Four-way set-associative cache （就是有四个直接映射的子高速缓存)在cache的设计中也是很平常的。但是这是有惩罚的。一个set-associate cache比起直接映射cache来需要更多的总线连接，所以cache太大以至于很难在一块芯片上构造直接映射。
不过也有巧妙的地方，由于直接映射cache对于你需要的数据只有唯一的候选者，所以把一些东西放到tag匹配前运行是可能的（只要CPU不做和着个数据有关的操作）。这样可以提高每一个时钟利用率。
由于当运行一段时间后cache会被装满，所以当再次存放从内存读来的数据时，就会抛弃一些cache内原有的数据。如果你知道这些数据在cache和内存中是一致的，那么你可以直接把cache中的备份抛弃；但如果cache中的数据更新的话，你就需要首先把这些数据存回到内存中。
这就给我们带来一个问题，cache怎样处理写操作？

4.3 Write-Through Caches in Early MIPS CPUs
CPU不能仅仅是读数据（就象上面的讨论），它们也要写数据。由于cache只是将主存中的一部分数据做一个备份，所以有一个显而易见的方法来处理CPU的写操作，被称之为Write-Through cache。
对于Write-Through cache，写操作时CPU总是将数据直接写到主存中去；如果对应主存位置的数据在cache中有一个备份，那么cache中的那个备份也要被更新。如果我们总是这样做的，那么cache中的任何数据将和主存中的保持一致，所以只要我们需要我们就可以抛弃任何一条cahce line的数据，并且除了消耗时间不会丢失任何东西。
当然这也是有危险的，当我们让处理器等待写操作结束时，处理器的运行速度将彻底的降下来，不过我们能修复这个问题。可以将要写入主存的数据及其地址先保存在另一边，然后有主存控制器自己取得这些数据并完成写操作。这个临时保存写操作内容的地方被称之为写操作缓冲区（write buffer），它是先入先出的（FIFO)。
早期的MIPS CPU有一个直接映射的write-through cache和一个写操作缓冲区，还有一个R3000的激发设置。它在同一芯片上构造cache控制器，但需要额外的高速存贮器芯片来存贮tag和数据。只有CPU跑一些特殊的程序很平均地产生的写操作，主存系统在这种工作方式下才能很好的消化这些写操作并工作的很好。
但CPU运行速度的增长比存贮器块得多。某些时候当32位的MIPS让位给64位R4000后，MIPS的速度就已经超过存贮器系统可以合理消化所有写操作的临界点了。

4.4 Write-Bach Cache in Recent MIPS CPUs
早期的MIPS CPU 使用简单的write-through cache。后来的MIPS CPU由于速度太快而不能适用这种方法，它们会陷入存储系统的写操作中，速度慢得像爬行。
解决的方法就是把要写的数据保留在cache中。要写的数据只写到cache中，并且对应的那条cahce line要做一个标记，使我们肯定不会忘记在某个时候把它回写到内存中(一条line需要回写，称之为dirty)。
Write-back cache还可以分成几种不同的子处理方式。如果当前cache中没有要写地址所对应的数据，我们可以直接写到主存中而不管cache，或者可以用特殊的方式把数据读入cache，然后再直接写cache，后面这种方式被称之为写分配（write allocate）。用一种自私的观点来看一个程序运行在一个CPU上，写分配（write-allocate）看起来象浪费时间；但是它可以使整个系统的设计变得简单，因为在程序运行时读写内存都读或者写都是以一条cache line大小为单位的块进行操作。
从MIPS R4000 开始，MIPS CPU在芯片内拥有cache，而且都支持write-through和write-allocate两种工作模式，line的大小也是支持16byte和32byte两种。
MIPS cache的这些工作模式可以被应用到使用sillicon Graphics设计R4000和其他大型CPU，其他计算机系统也因为多处理器系统而被这些cache工作模式影响到。

4.5 Cache设计的其他选择
在上个世纪八十和九十年代针对怎样设计cache，做了很多工作和研究。所以下面还有许多其它的设计选择。
Physically addressed/virtually addressed:
当CPU在运行成熟的操作系统时，数据和指令在程序中的地址（程序地址或虚拟地址）会被转换成系统内存使用的物理地址。
如果cache纯粹地在物理地址方式下工作，将很容易被管理（我们将在后面讨论为什么）。但合法的虚拟地址可以让cache更早地开始查询匹配工作，这样可以使系统跑的稍微块一点。
但虚拟地址有什么问题呢？它们不是唯一的；当许多不同的程序在CPU不同的地址空间中运行，它们可能会共享同样的虚拟地址而使用不同的数据。当我们切换不同的地址空间时，每次都需要重新初始化cache；这种方式在很多年前被使用，可以作为针对非常小的cache的一种合理解决方法。但针对大的cahce这种方式不仅可笑而且效率低下，我们需要一块区域来辨别cache tag中的地址空间，以至我们不被它们混淆。
这儿还有其它关于虚拟地址更细致的问题：相同的物理地址可以在不同的任务中被不同的虚拟地址描述。这就会导致相同物理地址的内容会被映射到不同的cache条目中（因为它们对应不同的虚拟地址，所以会被不同的索引所选中）。这样的情况必须被操作系统的内存管理所避免掉。详细的情况将在4.14.2节介绍。
从R4000起，MIPS的主cache都使用虚拟地址索引，从而提供快速的cache索引。但对于作为标记符来标记每一个cache-line，物理地址比虚拟地址更好。物理地址是唯一的而且效率更高，因为这样的设计显示出CPU在做cache索引的同时可以把虚拟地址转换成物理地址。

line大小的选择（Choice of line size）:
line的大小是对应每一个tag可以存贮多少字的数据。早期的MIPS的cache对应一个tag只能存贮一个字的数据。但对应一个tag能存贮多个字的数据更好，尤其是内存系统支持快速的burst read。现代的MIPS cache趋向于使用四个或者八个字大小的line，并且更大的第二层和第三层cache使用更大的line。
当cache miss发生时，整个一条line的数据都要从内存中获得。但很可能会取来几line的数据；一个字的cache line的MIPS CPU经常是一次就取多个字的数据。

分开/统一（Split/unified）:
MIPS的主cache总是分成I-cache和D-cache，取指令时察看I-cache，读写数据时察看D-cache。（顺便说一下，如果你想执行CPU刚刚拷贝到内存的代码，你必须不仅仅要是D-cache一部分无效使这些代码数据在D-cache中不再存在，而且还要保证它们被装入I-cache）
但是不在同一块芯片上的第二层cache很少也按这种方式来分成两块。这样就没有什么真的优势可言了。除非你能针对两种cache提供分开的数据总线，但这又会需要太多的管脚。

4.6 Cache管理（Magaging Caches）
Cache系统在系统软件的帮助下，必须保证任何应用程序数据的一致性，和它们在没有cache的系统下一样，尤其是DMA I/O控制器（直接从内存中取得数据）取得程序认为已经写过的数据。
对于CISC CPU，通常都不需要系统软件对cache的帮助；因为它会花费额外的内存空间、silicon area、时钟周期来使得cache变得真正的透明。
在系统启动的时候MIPS CPU需要初始化它的cache；这是一个十分复杂的过程，下面有关于它的几点建议。但当系统启动后运行到三种情况CPU必须加以干涉。

.在DMA设备从内存取数据之前:
如果一个设备从内存中取得数据，它必须取得正确的数据。如果D-cache是write-back，并且程序已经写了一些数据，那么很可能其中一些正确的数据还保留在D-cache中而没有写回到主存中去。CPU当然不可能看到这个问题；如果CPU需要这些数据，它会从cache中得到正确的数据。
所以在DMA设备开始从内存中读数据前，任何一个将被读数据如果还保留在D-cache中，必须被写回到内存中。

. DMA设备写数据到内存:
如果一个设备要将数据存贮到内存中，要使cache中任何对应将要写入内存位置的line都无效化，这是非常重要的。否则，CPU读这些位置的数据，将得到错误的数据。cache应该在数据通过DMA写入内存之前将对应的cache line无效化。

. 拷贝指令:
当CPU自己为了后面的执行而写一部分指令到内存中，你首先必须保证这些指令会被回写到内存中，其次保证I-cache中对应这些指令的line会被无效化。在MIPS CPU中，D-cache和I-cache是没有任何联系的。（当CPU自己写指令到内存中时，这时候指令是被当作数据写的，很可能只被写到cache中，所以我们必须保证这些指令都会被回写到内存中；为什么要使I-cache无效化，这和数据通过DMA直接写入内存中要无效cache一样的原因。）

如果你的软件需要解决这些问题，就需要针对cache line的两个独特的操作。
第一个操作被称之为回写操作。CPU必须能够针对地址在cache中查找对应的cache line。如果找到，并且对应line是dirty，就需要把这条line的数据写回到内存中。
CPU增加了其他不同层次的cache（速度和大小），来减少miss的处理。所以设计者可以使内层的cache机构简单，从而使它能在很高的时钟频率上作查询。这样很显然越往内层的cache就会越小。从1998年开始，许多高速的cpu都在同一块芯片上采用第二级cache，主cache的大小变小，双重16K的主cache受到青睐。

不在同一块芯片上的cache通常都是直接映射的，因为组相连的cache系统需要更多的总线从而需要更多的管脚来连接。这还是一个值得研究的领域；MIPS R10000采用只有一个数据总线的二路组相连cache，如果命中的不是希望的那一组，通过一段延时后在返回数据来实现（两个组共用一个数据总线）。
在cache的发展过程中，产生了两类主要的软件接口来针对cache。从软件的观点来看，一类是建立在以R3000为代表的32位MIPS CPU的基础上；另一类是建立在以R4000为代表的64位MIPS CPU上的。R3000这一类型的MIPS CPU的cache是write-through，直接映射的，物理地址为索引。cache访问的最小单位是一个字，所以写一个字节（或者是写小于一个字）的操作必须被特殊的处理。在读写这一类数据是cache管理采用特殊的模式。

为什么不通过硬件来管理cache?
通过硬件来管理cache通常被称为“爱管闲事”。当另一个cpu或者是DMA设备访问内存时，被访问地址对应的内容对于cache来说是可以看到的。

4.7 第二层和第三层cache
在大型的系统中，通常需要一个嵌套的多层cache。一个小而快的主cache最接近cpu。访问主cache出现miss时，不是直接从内存中查找而是从第二层cache中查找。第二层cache在速度和大小上是介于主cache和内存之间。cache层次的数目可以通过内存速度和cpu最快访问速度比较来决定；由于cpu速度发展比内存的发展快得多，在过去的12年里桌上型电脑系统从没有cache发展到有两层cache。九十年代后期的最快cpu速度大约可以达到500MHz，拥有三层cache。

4.8 MIPS CPU cache的构造
通过观察cache采用模式和层次的发展（看表4.1），我们可以将MIPS CPU分成两类，古老的和现代的。
当时钟的速度变得越快，我们就能看到越多得cache构造，因为设计者为了应付CPU跑得速度比内存系统越来越快。为了保证运行的顺畅，cache必须提高运行速度，保证提供数据的速度比外围得存贮器要快，同时也要保证尽可能多命中。相比较R4000类型的CPU，主cache是write back类型，是write allocate ,virtually indexed,physically tagged, 二路或四路组相连的cache。
许多R4x00和其后续cpu在同一块上拥有第二层cache的控制器，1998年出现了这样的第一块cpu。
由于两种产生的不同，我们将分两节来详细介绍。

注意！一些系统的第二层cache不是由mips cpu内部的硬件来控制的，而是建立在内存的总线上。对于这类cache的软件接口将具有系统特殊性，和象这章介绍的由cpu内部控制的cache的软件接口相比，可能有很大的不同。

4.9 Programming R3000-Style Caches
MIPS R2000打破了芯片内cache控制器的基础，将cache额外的分成I-cache和D-cache。这是一个后见之明，不会让人感到惊讶，就是这样一个先驱者的冒险导致了后面很多事端。cache有一个特殊的软件访问缺点。
为了节省芯片管脚，cache将不能拥有不同的闸门来执行字节、半个字和其他小于一个字单位的写操作。所以在R2000系列中对cache执行一个小于字单位的写操作时，会回写到主存中，并将cache中这个字所在的Line无效化。这样针对cache管理，提供了一个使cache无效的方法：只用写一个字节就行了。
你可以看到支持这些简化的观点。R2000设计者提出理由小于字的操作通常用于字符操作，字符操作总是由库函数提供，而这些库函数用整个字的操作来重写。这些假设总是被认为对对错错，或者半对半错。
直到认识到不是所有系统都能用相同的函数库，而且每个字节写操作都使所在cache无效也不是一个好主意，这些争论才没有继续下去。因为这是不能被容忍的，所以出现了一个很大的改动，R3000系列的cpu通过一个RMW(read-modify-write)序列来执行小于字单位的写操作。这个RMW出现在所以的32位的mips cpu中，并增加了一个时钟周期来作为这样一个写操作的延时。
这样cache无效的机制被带入困境；R2000因为它的奇怪习惯而有一个优点，可以通过字节的写操作来使cache无效化。而R3000 cache 需要用一个叫isolation的模式来挽救，原来这种模式只是用于cache诊断的。RMW队列因为这种模式而受到压制，在那种状态下小于一个字单位的写操作还是会让该字所处的line无效化。这是不幸的但不是悲惨（灾难）的，对于一些运行着的系统做一些事有着更有益的地方。显著的就是当cache在isolation模式时的时候，cache将没有读写操作，任何读写操作将直接和内存打交道。

4.9.1 Using Cache Isolation and Swapping
所有的R3000系列cpu的cache都是write-through模式的，这就是说cache中不会拥有比内存中更新的数据。也就是说cache中的数据从来都不需要回写到内存，所以我们只需要能使D-cache和I-cache无效就行了。
只需要不同的cache操作按照内存顺序来做cahce的管理，并且cache的管理没有必要通过特殊的内存地址空间。所以这儿有一个状态寄存器有一个SR位能够使D-cache关闭isolation模式；在这种模式下读写操作只影响着cache，读还是会命中但不管tag是不是相等。当D-cache处于isolation模式时，小于一个字单位的写操作会使对应cache Line被无效化。

CAUTION!!!
当D-cache处于isolation模式，任何读写操做不会受其对应地址或TLB条目的影响而按照非cache的情况操作。这样的结果就是cache管理程序必须保证有些数据是不可以被访问的；如果你能通过你的编译器做到很好的控制，并且能过保证所有你用的变量都保存在寄存器中，你才能在很高级别的语言中写它们。还必须保证运行这些程序时屏蔽中断。

I-cache在通常运行模式下也是完全不可访问的。所以CPU提供了另一种模式，cache交换(swapped)，通过设置状态寄存器的SwC位；这时D-cache可以担当I-cache，I-cache可以担当D-cache。当cache是交换模式时，isolated的I-cache条目可以被读、写和无效化。
D-cache可以完美的充当I-cache使用（可能I-cache也可以通过初始化使之象D-cache一样工作），但I-cache不能完全的充当D-cache。这也是靠不住的，当cache是交换模式时有用，isolation却没有用。
如果你需要使用交换的I-cache来存储字单位的数据（和以前一样小于字单位的数据写操作会使该数据对应的line被无效化），你必须保证在返回到正常模式时对应的cache line必须被无效化。

4.9.2 Initializing and Sizing 初始化和判断大小
当机器启动时cache的状态是不确定的，所以这时读cache结果也是不可预知的。你也应该认识到机器重起后状态寄存器的SwC位和IsC位也是不确定的，所以在对cache读写前（即使在非cache的情况）启动软件最好能将这些状态设为可知的。
不同的MIPS CPU，cache有不同的大小。为了保证你软件的可移植性，最好能在初始化的时候计算出D-cache和I-cache的大小。这样比直接配置一个给定的值好。
下面将介绍怎样获得cache大小的值：
a. Isolated cache，让I-cache处于交换模式。
b. 在R3000系列CPU中，cache的大小可能是256K，128K，64K，32K，16K，8K，4K ，2K，1K和0.5K（K等于1024，单位是字节)。将这些可能的值n（上面那些值中的一个）写到物理地址等于它们本身的地方（有大到小）。最简单产生物理地址是用Kseg0段地址（n+0x80000000)。因为cache地址是重叠循环的，那么如果n是cache大小的倍数，那么它就会被后面小的值所覆盖。
c. 所以读物理地址零（也就是0x80000000），就能得到cache大小的值。

初始化cache，你必须保证每一个cache条目都被无效化，而且正确对应一个内存位置，所含的之值也是正确的：
a. 检查状态寄存器SR的PZ位是不是位零（为1的话，关闭奇偶位，对于同一个芯片上的 cache这不是一个好主意）。
b. isolated D-cache，并使它和I-cache交换。
c. 对于cache的每一个字，先写一个字的值（使cache的每条line的tag、数据、和奇偶位都正确），然后再写一个字节（使每条line都无效）。
不过要注意当对于每条line有四个字的I-cache，这样做效率就很低；因为只要写一个字节就足够使每条line无效了。当然除非你要经常调用这个使cache无效程序，否则这个问题是不会表现的很明显。不过如果你想根据实际情况来优化cache无效化程序，就需要在启动的时候确定cache的结构。