超标量处理器的分支预测

最新推荐文章于 2024-08-01 21:59:33 发布

薄荷茶哈哈哈

最新推荐文章于 2024-08-01 21:59:33 发布

阅读量344

点赞数

分类专栏：体系结构基础知识文章标签： fpga开发

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/rosemaryandthyme/article/details/126732559

版权

体系结构基础知识专栏收录该内容

5 篇文章 1 订阅

订阅专栏

参考《超标量处理器设计》

超标量处理器根据去指令的地址，从I-Cache中取出多条指令，这些指令组成指令组（fetch group），处理器根据指令组中指令的个数，调整取指令的地址，进行下个周期的取指令。

超标量处理器中的取指令的地址不连续，每次增加的值等于指令组的字长，所以如果使用取指令的地址进行分支预测，就只对指令组的第一条指令进行了分支预测。

BTB需要几下分支指令在四条指令中的位置（4way超标量处理器）

当前周期取出的质量不包括分支指令，BTB记录下01即分支指令的偏移值，若四字对齐的四条指令中存在多于一条的分支指令，它们会互相干扰。

上述局限于指令出现在四字对齐的边界内，如果可以对一个周期的所有指令做分支预测，情况如下

这种情况BTB需要四个读端口，硬件利用效率低，不采用上述方法。

1.目标地址预测

对于RISC指令集，可以在取指阶段马上进行目标地址的计算不必进行目标地址的预测，需要在I-Cache取出时马上识别出分支指令，可以在进入I-Cache之前进行预解码，如果遇到间接跳转的指令，此时无法对目标地址进行预测。

2.分支方向预测

基于局部历史的分支预测，需要PHT和BHT支持多端口，可以通过交叠的方式模拟多端口

基于全局历史的分支预测，考虑多条指令的GHR不一样，所以不能简单的模拟。

3.交叠

使用但端口存储器模拟多端口的结构

若寻址PHT的地址由哈希运算产生，要保证每周期寻址PHT的四个地址落在不同的bank上，否则会产生bank冲突。

可以将每条指令PC值的[3:2]（PC需要字对齐）作为寻址的低位部分，这样可以保证四个地址寻址到四个不同的bank。

交叠的优点：避免真正使用多端口存储器而对芯片面积、功耗和延迟造成负面的影响。

大部分多端口功能部件如ROB、发射队列(Issue Queue)和指令缓存(Instruction Buffer)等部件。

薄荷茶哈哈哈

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

薄荷茶哈哈哈 CSDN认证博客专家 CSDN认证企业博客

码龄5年

22: 原创

110万+: 周排名

17万+: 总排名

6万+: 访问

-: 等级

0: 积分

69: 粉丝

58: 获赞

16: 评论

368: 收藏

私信

关注

热门文章

分类专栏

最新评论

HDLbits之Mt2015 muxdff
薄荷茶哈哈哈: assign一般用于直接对逻辑电路的信号赋值，always如果后面接了时钟比如always@(posedge clk)里面是时序电路，不是逻辑电路，时序电路一般直接非阻塞赋值就可以了
HDLbits之Mt2015 muxdff
D_Asteria: 请问assign和always可以在写电路时一起用吗？
18.门控时钟
FIREBEI: "由于 DFF 输出会 delay 一个周期，所以除非 CLKB 上升沿提前 CLKA 很多，快半个周期，才会出现毛刺，而这种情况一般很难发生。但是，这种情况 CLKB 比 CLKA 迟到，是不会出现毛刺的。" 这是为什么？
HDLBits之DFFs and gates
轩轩子459: 第一个的问题并不是非阻塞赋值的缘故，相反的，在时许电路中reg类型变量使用非阻塞赋值才是正规的操作，真正的原因我觉得是没有将z初始化为1，也就是题中要求的q的复位值为0，这才是两者答案不同的原因。如有问题请指正
18.门控时钟
薄荷茶哈哈哈: 是的是的

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。