1. 实验目的
- 加深对计算机流水线基本概念的理解;
- 理解MIPS结构如何用5段流水线来实现,理解各段的功能和基本操作;
- 加深对数据冲突、结构冲突的理解,理解这两类冲突对CPU性能的理解;
- 进一步理解解决数据冲突的方法,掌握如何应用定向技术来减少数据冲突引起的停顿。
2. 实验要求
- 观察每次操作的结果,并进行记录;
- 根据课堂上学习的流水线的功能及流水线冲突原理,并详细描述上述实验步骤所产生现象的原理,进行适当的分析;
- 完成实验报告的撰写,描述你做实验的步骤和实验的结果。内容至少包括:实验目的、实验步骤、实验结果、心得体会几部分。
3. 实验内容
3.1. 实验平台
实验平台采用指令级流水线操作级模拟器MIPSsim。
模拟器的使用方法请参考“附录B MIPSsim使用手册”。(实验附录B+C.pdf)
本实验涉及到的MIPSsim指令系统的模拟指令及具体每条指令的功能及用法请参考“附录C MIPS16模拟器及相关指令”。(实验附录B+C.pdf)
3.2. 实验步骤及结果
(1) 启动 MIPSsim。
(2) 选择“配置”->“流水方式”,使模拟器工作在流水方式下。“寄存器”窗口选择“十六进制”方式显示寄存器的值。
(3) 加载样例程序 pipeline.s
,然后关闭“定向”功能。(确定“配置”->“定向”前面没有√符号)
(4) 单步执行(F7键)执行该程序,观察每一周期中,各段流水寄存器内容的变化、指令的执行情况(“代码”窗口),以及时钟周期。记录以下情况:
当执行到第13个(注意以窗口显示的 cycle 号为准)时钟周期时,各段正在处理的指令是:
- IF:
LW $r4, 60($r6)
- ID:
ADDI $r3,$r0,25
- EX:
ADDI $r1,$r1,-1
- MEM:
ADDI $r6,$r0,8
- WB:
ADD $r2,$r1,$r0
画出这时的时钟周期图。
这时各流水寄存器中的内容为:(请逐条解释各寄存器中内容的含义)
- IF/ID.IR:
0x8CC4003C
// IF 与 ID 之间的指令寄存器存放的机器码 - IF/ID.NPC:
0x00000030
// IF 与 ID 之间的指令程序计数器存放的下一条指令地址 - ID/EX.A:
0x0000000000000000
// ID 与 EX 之间的第一操作数寄存器存放的是 0 - ID/EX.B:
0x0000000000000000
// ID 与 EX 之间的第二操作数寄存器存放的是 0 - ID/EX.Imm:
0x0000000000000019
// 将 25 存入 ID 与 EX 之间的立即数寄存器 - ID/EX.IR:
0x20030019
// ID 与 EX 之间的指令寄存器存放的机器码 - EX/MEM.ALUo:
0x0000000000000004
// EX 与 MEM 之间的 ALU 计算结果为 4 - EX/MEM.IR:
0x2020FFFF
// EX 与 MEM 之间的指令寄存器存放的机器码 - MEM/WB.LMD:
0x0000000000000000
// MEM 与 WB 之间的数据寄存器存放从存储器读出的数据 0 - MEM/WB.ALUo:
0x0000000000000008
// 存放从 EX/MEM.ALUo 传过来的计算结果是8 - MEM/WB.IR:
0x20060008
// MEM 与 WB 段之间的指令寄存器存放的机器码
(5) 观察和分析结构冲突对 CPU 性能的影响。
- 首先加载
structure_xy.s
(在模拟器所在文件夹下的“样例程序”文件夹中),执行该程序,找出存在结构冲突的指令以及导致结果冲突的部件。
答:
structure_xy.s
中每个 ADD.D
指令和每个 MUL.D
指令都存在结构冲突。
由上图可知:fadd
和 fmul
段,流水线出现停顿,所以导致结果冲突的部件是浮点加法器和浮点乘法器。
- 记录由结构冲突引起的停顿时钟周期数,计算停顿时钟周期数占总执行周期数的百分比。
答:
由“统计”窗口可知:
- 执行周期总数:103
- 结构停顿:77
- 停顿占周期总数的百分比:77 ÷ 103 × 100% = 74.75728%
- 把浮点加法器的个数改为 4 个并重复上述过程。(“配置”->“常规配置”,修改后需重新载入程序),记录周期数及占比。
答:
由“统计”窗口可知:
- 执行周期总数:70
- 结构停顿:44
- 停顿占周期总数的百分比:44 ÷ 70 × 100% = 62.85714%
- 把浮点乘法器的个数改为 4 个并重复上述过程。(“配置”->“常规配置”,修改后需重新载入程序),记录周期数及占比。
答:
由“统计”窗口可知:
- 执行周期总数:31
- 结构停顿:5
- 停顿占周期总数的百分比:5 ÷ 31 × 100% = 16.12903%
- 分析结构冲突对 CPU 性能的影响,谈论解决结构冲突的方法。
答:
-
问题分析:结构冲突是硬件资源满足不了指令重叠执行的要求而发生的冲突。该冲突会导致流水线停顿,从而影响 CPU 性能。
-
解决方案:从前几个问题可以发现,当多添加几个加法器和乘法器之后,结构停顿周期数明显减少,占周期总数的百分比明显降低。因此,在流水线处理机中设置相互独立的指令寄存器和数据寄存器,或者将统一的Cache分成独立的指令 Cache 和数据 Cache,即可解决结构冲突。
(6) 观察数据冲突并用定向技术来减少停顿。
全部复位后,加载 data_hz.s
(在模拟器所在文件夹下的“样例程序”文件夹中)。
关闭定向功能。这是通过在“配置”→“定向”(使该项前面没有√号)来实现的。
- 用单步执行一个周期的方式(F7)执行该程序,同时查看时钟周期图,列出在什么时刻发生了 RAW (先写后读)冲突。
答:
在 cycle 号为:3,5,8,12,16,19,24,27,31,35,38,43,46,50,54,57 时发生了 RAW 冲突。
- 记录数据冲突引起的停顿时钟周期数以及程序执行的总时钟周期数,计算停顿时钟周期数占总执行周期数的百分比。
答:
由“统计”窗口可知:
- 执行周期总数:65
- RAW停顿:31
- WAW停顿:0
- 停顿占周期总数的百分比:(31+0) ÷ 65 × 100% = 47.69231%
复位 CPU,打开定向功能。这是通过在“配置”→“定向”(使该项前面有一个 √ 号)来实现的。
- 再次单步执行程序,查看时钟周期数,列出在什么时刻发生了 RAW(先写后读)冲突,并与前面没有开启定向功能的情况进行比较。
答:
在 cycle 号为:4,12,24,36 时发生了 RAW 冲突。
由上图可知:开启定向功能后,在某条指令产生计算结果之前,定向技术就直接将该计算结果从其产生的地方直接送到其它指令需要它的地方,极大地减少了 RAW 冲突数目。
- 记录数据冲突引起的停顿时钟周期数以及执行的总时钟周期数,计算采用定向技术后性能提高的倍数。
答:
由“统计”窗口可知:打开定向功能后,RAW 停顿周期变为 9,执行的总时钟周期数变为了 43。
性能提升倍数: 65 ÷ 43 ≈ 1.5116 65 \div 43 \approx 1.5116 65÷43≈1.5116
4. 拓展内容(选做)
请自行练习 Ripes 模拟器运行示例程序(或自编程序),查看单步运行结果,观察指令流水线的运行情况,尝试对实验过程中所看到的现象进行分析和理解。
提示:
- 点击工具栏最右侧的表格型图标后打开 Stage Table 窗口,可查看流水线运行情况。
- 在 Editor 窗口和 Instruction memory 窗口也可以看到每条指令语句运行阶段的变化情况。
5. 心得体会
通过本次实验,掌握了流水线的五段式结构:
加深了对结构冲突和数据冲突的理解:
- 结构冲突:硬件资源满足不了指令重叠执行的要求而发生的冲突。
- 数据冲突:当指令在流水线中重叠执行时,因需要用到前面的指令的执行结果而发生的冲突。
以及解决结构冲突和数据冲突的方法:
- 结构冲突解决方案:设置相互独立的指令存储器和数据存储器,或者将统一的 Cache 分成独立的指令 Cache 和数据 Cache。
- 数据冲突解决方案:定向技术。某条指令产生计算结果之前,其它指令并不真正立即需要该计算结果,如果能够将该计算结果从其产生的地方直接送到其它指令需要它的地方,那么即可以避免停顿。
值得注意的是:定向技术并不能解决所有的写后读数据冲突。有时候需要设置一个流水线互锁机制功能部件。其作用是检测发现数据冲突,并使流水线停顿,直至冲突消失。
6. 参考资料
- MIPS指令系统介绍,请参考实验附录C
- MIPSSim模拟器使用说明,请参考实验附录B。
- 关于内存编址、CPU控制器、PC寄存器等基础知识,请自行查找资料学习和了解计算机组成原理。
- David Patterson, Andrew Waterman. RISC-V 手册。
- Ripes 模拟器:https://github.com/mortbopet/Ripes/releases
- MIPS 使用说明:https://www.cnblogs.com/jiangxinnju/p/10090834.html