采用硬件预读的优点是不需要软件进行干预,不会扩大代码的尺寸,不需要浪费一条预读指令来进行预读,而且可以利用任务实际运行时的信息(Run Time Information)进行预测,这些是硬件预读的优点。
硬件预读的缺点是预读结果有时并不准确,有时预读的数据并不是程序执行所需要的,比较容易出现Cache Pollution的问题。更重要的是,采用硬件预读机制需要使用较多的系统资源。在很多情况下,耗费的这些资源与取得的效果并不成比例。
硬件预读机制的历史比软件预读更为久远,在IBM370/168处理器系统中就已经支持硬件预读机制。大多数硬件预读仅支持存储器到Cache的预读,并在程序执行过程中,利用数据的局部性原理进行硬件预读。
最为简单的硬件预读机制是OBL(OneBlock Lookahead)机制,这种方式虽然简单,但是在许多情况下效率并不低于许多复杂的实现,也是许多处理器采用的方式。OBL机制有许多具体的实现方式,如Always prefetch,Prefetch-on-miss和Tagged prefetch[23]。
在使用Always PrefetchOBL实现方式时,当一段程序访问数据块b时,只要数据块b+1没有在Cache中Hit,就对数据块b+1进行预读。这种方式的缺点是可能程序访问数据块b之后,将很长时间不使用数据块b+1,从而带来较为严重的Cache Pollution。使用这种方式时的Access Ratio为2。
在使用Prefetch-on-MissOBL实现方式时,当程序对数据块b进行读取出现Cache Miss时,首先将数据块b从存储器更新到Cache中,同时预读数据块b+1至Cache中;如果数据块b+1已经在Cache中,将不进行预读。使用这种方式时的Access Ratio为1+Miss Ratio。
AlwaysPrefetch和Prefetch-on-Miss OBL方式没有利用之前的历史信息,在某些应用中,容易造成Cache Pollution。Tagged Prefetch是Prefetch-on-Miss实现方式的一种改进,其实现相对较为复杂,也使用了额外的硬件资源。
在使用Tagged PrefetchOBL实现方式时,需要为每一个Cache Block设置一个Tag位,该位在复位或者当前Cache Block被替换时设置为0。如果当前Cache Block是因为Prefetch的原因从其下的存储器子系统中获得时,该位依然保持为0。
当前CacheBlock在预读后第一次使用,或者是Demand-Fetched时,Tag位将从0转换为1,此时如果其后的数据块不在Cache Block时将进行预读[23]