7.3 Hardware Prefetching 《Speculative Execution in High Performance Computer Architectures》

最新推荐文章于 2021-11-15 14:20:24 发布

weixin_34095889

最新推荐文章于 2021-11-15 14:20:24 发布

阅读量142

点赞数

原文链接：https://yq.aliyun.com/articles/571889

版权

7.3 Hardware Prefetching 《Speculative Execution in High Performance Computer Architectures》

本节主要介绍硬件数据预取，数据预取分为2个端，处理器端和内存端，处理器端主要在主要在L1或者L2实现预取，内存端主要在内存控制器中实现。预取算法也有3种：顺序或者步长预取（ Stride and Sequential Prefetching），关联性预取（ Correlation Prefetching），内容关联性预取（ Content-Based Prefetching）

顺序或者步长预取（Stride and Sequential Prefetching）

预取的规则：

1.如果请求的line在cache中，不会发生任何操作。

2.如果line没有被cache，但是在stream buffer的头部找到，line就会被启动到cache中，head会被移动到下一个。

3.如果都没有，会分配一个新的stream buffer。并且该line的预取被放入stream buffer

缺点，有可能引起途中一样的问题，有重复的stream buffer 出现原因是非单元步长的访问。

关联性预取（Correlation Prefetching）

为了解决顺序或者步长预取，引入了关联性预取，关联性预取引入了一个关联表，里面记录了某个miss之后的联系miss。当miss再次发生就回去关系表中的所有的行。

预取分为了2中1.base方式，2.Relicated方式。看图上的步骤就清楚2个的区别了。

缺点：需要大量的缓存来存这个关系表，大概需要1-2M的SRAM十分的昂贵

内容关联性预取（Content-Based Prefetching）

这种方式，是通过检查内容查看是不是指针或者地址，并且感觉马上就要被访问了，如果是就预取进来。

启发规则是根据cacheline分为多个4字节的块。块被分为了好几个段

1.比较miss地址和其他地址的compare bits，如果匹配预取的是同一个基地址的数据。

2.compare bits都是0，就检查filter bits如果非0，就是相似的地址。若compare bits都是1 filter bits 都是0 也认为是相似地址

3.align bits 要为00 才可以

缺点：预取是根据上一次的miss的内容来发送的，所以有可能会变成每个都miss的情况，间接矩阵和以下标的形式并不起作用

本文转自 Fanr_Zh 博客园博客，原文链接：http://www.cnblogs.com/Amaranthus/archive/2013/05/31/3110178.html ，如需转载请自行联系原作者

weixin_34095889

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。