Tomasulo算法
结构:
每个功能单元都有一个控制缓冲器,即保留站;所有保留站连接到通过公共数据,以检测广播;浮点寄存器具有控制位和tag域,能够保存register result status。
基本原理:
把指令的执行分成Issue、execution、write result三步,整体以按序发射、乱序执行的方式进行。当不存在结构冒险时,将指令按序发射到各个功能部件保留站,保留站中的指令的寄存器被数值或指向保留站的指针所代替,这一过程为寄存器重命名,消除了WAW、WAR冒险。当指令的源操作数就绪时即可执行,从而实现乱序执行,消除RAW冒险。当指令执行完毕时,通过公共数据总线将结果广播到所有的功能部件及保留站。
步骤:
(1) Issue:从FP op Queue中取指令,如果保留站空闲(无结构冒险),发射指令并发送操作数到保留站(对寄存器进行换名)
(2) Execution:当指令的两个源操作数就绪时即可执行,如果没有,检测CDB等待所需要的数据。
(3) Write result:通过公共数据总线将结果广播到所有等待的功能部件,标记保留站可用。
Tomasulo怎样消除各种冒险
通过在issue阶段,暂停发射指令消除结构冒险;
通过寄存器换名消除WAR、WAW冒险;
通过在保留站中等待源操作数消除RAW冒险;
怎样支持精确中断和推测执行
分离指令的完成和提交,引入重排序缓冲器ROB,让指令能够乱序完成,按序提交。
ROB:按FIFO的次序存放指令,当指令执行完成将结果存放在ROB中,并向其他介于执行、完成和提交的指令提供操作数。当ROB顶部的指令执行完成时就将进行提交。
降低cache失效率的方法
(1)增大块大小
(2)增大相联度
(3)使用victim cache
(4)采用伪相联
(5)通过硬件预取数据和指令
(6)通过软件预取数据和指令
(7)通过编译优化
降低cache失效损失的方法
(1)在失效时读比写优先
(2)子块放置
(3)提前重启和关键字先送