Verilog流水线CPU设计（超详细）

最新推荐文章于 2025-09-01 14:29:43 发布

Ace Cheney

最新推荐文章于 2025-09-01 14:29:43 发布

阅读量7.5w

收藏 1.5k

点赞数 232

CC 4.0 BY-SA版权

分类专栏：计算机组成结构文章标签：流水线CPU MIPS Verilog 计组实验

本文链接：https://blog.csdn.net/accelerato/article/details/92847394

上篇：Verilog单周期CPU设计（超详细）
本篇完整工程下载链接,已于19.12.17更新

实验流水线CPU

一、设计目的与要求
二、课程设计器材
- 2.1 硬件平台
- 2.2 软件平台
三、CPU逻辑设计总体方案
四、冒险解决策略
五、模块详细设计
六、仿真模拟分析
七、结论和体会
- 7.1体会感悟
- 7.2对本实验过程及方法、手段的改进建议
PS

一、设计目的与要求

1.1 实验内容

本实例所设计CPU的指令格式的拟定。
基本功能部件的设计与实现。
CPU各主要功能部件的设计与实现。
CPU的封装。
了解提高CPU性能的方法。
掌握流水线MIPS微处理器的工作原理。
理解数据冒险、控制冒险的概念以及流水线冲突的解决方法。
掌握流水线MIPS微处理器的测试方法。

1.2 实验要求

至少支持add、sub、and、or、addi、andi、ori、lw、sw、beq、bne十一条指令。
采用5级流水线技术，具有数据前推机制。

1.3 实验创新

寄存器堆的写操作提前半个时钟周期。
完成Lw指令的数据冒险的解决。
完成控制冒险的解决。

二、课程设计器材

2.1 硬件平台

无

2.2 软件平台

操作系统：Win 10。
开发平台：Vivado 2017.2。
编程语言：VerilogHDL硬件描述语言。

三、CPU逻辑设计总体方案

流水线是数字系统中一种提高系统稳定性和工作速度的方法，广泛应用于高档CPU的架构中。根据MIPS处理器的特点，将整体的处理过程分为取指令（IF）、指令译码（ID）、执行（EX）、存储器访问（MEM）和寄存器会写（WB）五级，对应多周期的五个处理阶段。一个指令的执行需要5个时钟周期，每个时钟周期的上升沿来临时，此指令所代表的一系列数据和控制信息将转移到下一级处理。
在这里插入图片描述
图3-1 流水线

3.1 数据通路

（1） IF级：取指令部分。
包括指令储存器和PC寄存器及其更新模块，负责根据PC寄存器的值从指令存储器中取出指令编码和对PC的值进行更新。
（2） ID级：指令译码部分。
根据独处的指令编码形成控制信号和读寄存器堆输出的寄存器的值。
流水线冒险检测也在该级进行，冒险检测电路需要上一条指令的MemRead，即在检测到冒险条件成立时，冒险检测电路产生stall信号清空ID/EX寄存器，插入一个流水线气泡。
（3） EX级：执行部分。
根据指令的编码进行算数或者逻辑运算或者计算条件分支指令的跳转目标地址。
此外LW、SW指令所用的RAM访问地址也是在本级上实现。控制信号有ALUCode、ALUSrcA、ALUScrB和RegDst，根据这些信号确定ALU操作、选择两个ALU操作数A、B，并确定目标寄存器。另外，数据转发也在该级完成。数据转发控制电路产生ForwardA和ForwardB两组控制信号。
（4） MEM级：存储器访问部分。
只有在执行LW、SW指令时才对存储器进行读写，对其他指令只起到一个周期的作用。该级只需存储器写操作允许信号MemWrite。
（5） WB级：寄存器堆写回部分。
该级把指令执行的结果回写到寄存器文件中。
该级设置信号MemtoReg和寄存器写操作允许信号RegWrite，其中MemtoReg决定写入寄存器的数据来自于MEM级上的缓冲值或来自于MEM级上的存储器。
在这里插入图片描述

图3.1-1 数据通路

3.2 MIPS指令格式

MIPS指令系统结构有MIPS-32和MIPS-64两种。本实验的MIPS指令选用MIPS-32。以下所说的MIPS指令均指MIPS-32。
MIPS的指令格式为32位。图3-3给出了MIPS指令的3种格式。
在这里插入图片描述

图3-2 MIPS指令格式

本实验只选取了11条典型的MIPS指令来描述CPU逻辑电路的设计方法。表3-1列出了本实验的所涉及到的11条MIPS指令。
在这里插入图片描述
R型指令的op均为0，具体操作由func指定。rs和rt是源寄存器号，rd是目的寄存器号。移位指令中使用sa指定移位位数。
I型指令的低16位是立即数，计算时需扩展到32位，依指令的不同需进行零扩展和符号扩展。

3.3 流水线CPU结构设计图

在这里插入图片描述
图3-4 流水线CPU总体结构图

图3-4是一个简单的基本上能够在流水线上完成所要求设计的指令功能的数据通路和必要的控制线路图。其中指令储存在指令储存器，数据储存在数据存储器。而且实现了数据冒险和控制冒险的解决方案。但是此结构仅解决了数据冒险，没有解决控制冒险，若要想解决控制冒险，需要把EX级的移位器和计算分支目标地址的加法器前移到ID。在下文中会给出具体的解决方法。

3.4 流水线CPU逻辑流程图

根据实验原理中的流水线CPU总体结构图，我们可以清楚的知道流水线CPU的设计应包括五级。其中为了运行整个CPU还需要加入一个顶层模块（MAIN）来调用这些模块，所以自然地，这些模块为顶层模块的子模块。设计流程逻辑图如下（左边为流水线寄存器组，右边为各级模块）。
在这里插入图片描述

3.5 变量命名

由于在流水线中，数据和控制信息将在时钟周期的上升沿转移到下一级，所以规定流水线转移变量命名为：名称_流水线级名称。

四、冒险解决策略

4.1 数据冒险

在基本流水线中相邻两条指令的前一条指令还没有更新目的寄存器时，后一条指令就已经先读取了该寄存器的旧值，使得指令的计算结果出现错误。这样相关的问题就称为数据冒险。下面给出本实验所使用的解决方法。

4.1.1 寄存器堆的写操作提前半个时钟周期

在未提前半周期时CPU中，指令在时钟周期结束时的上升沿将ID级寄存器的值锁存进ID/EX，或将ALU的计算结果更新寄存器的值。但是寄存器的读、写的操作时间实际上只有时钟周期的一半。因此可以把寄存器堆的写操作提前到时钟周期中间的下降沿完成。那么后半个时钟周期就可以将写入之后的值读出。这样做后，同一级的数据冒险得到解决。

4.1.2内部前推

运算指令的结果在EX级结束时，就已经锁存在EX/MEM的Rd中，然而寄存器的值在ID结束时就已经锁存在ID/EX，但在EX级才真正使用这些值。
所以为了支持内部前推，需在ALU的两个输入端之前，分别增加一个多路选择器和相应的数据通路，并检测处于EX级指令的两个源操作寄存器号是否和处于MEM级或WB级指令的目的寄存器号相等。下面给出检测条件。

[条件a] E_Rs == EX/MEM.Rd，
判断EX级指令的rs字段是否和MEM级指令的目的寄存器号相同
[条件b] E_Rs == MEM/WB.Rd，
判断EX级指令的rs字段是否和WB级指令的目的寄存器号相同
[条件c] (E_Rt == EX/MEM.Rd) & ((E_Inst == I_add) | (E_Inst == I_sub) | (E_Inst == I_and) | (E_Inst == I_or) | (E_Inst == sw) | (E_Inst == beq) | (E_Inst == bne))
判断EX级指令的rt字段是否和MEM级指令的目的寄存器号相同
[条件d] (E_Rt == MEM/WB.Rd) & ((E_Inst == I_add) | (E_Inst == I_sub) | (E_Inst == I_and) | (E_Inst == I_or) | (E_Inst == sw) | (E_Inst == beq) | (E_Inst == bne))
判断EX级指令的rt字段是否和WB级指令的目的寄存器号相同

同时应该考虑以下几种特殊情况。

某些指令可能不写回寄存器，例如sw和beq指令，或者某些指令的写信号被关闭。所以还需检测处于MEM级或WB级指令的寄存器堆写使能信号M_Wreg或W_Wreg是否有效。
寄存器$0始终为0，不必考虑在$0上产生的数据冒险，即第三条指令分别与第一条、第二条指令存在数据冒险。按照执行逻辑，当第三条指令处于EX级时应选择处于MEM级的第二条指令的前推。而不能选择第一条前推。所以在判断逻辑模块的代码实现时，应先判断相邻两条指令是否存在数据冒险。

4.1.3 lw指令的数据冒险

内部前推有显而易见的局限性，因为内部前推必须要求前一条指令在EX结束时更新，但是LW指令最早只能在WB级读出寄存器的值。因此无法及时提供给下一条指令的EX级使用。
分析流水线时序图，可以发现lw指令的下一条指令，需要阻塞一个时钟周期，才能确保该指令能获得正确的操作数值，下面给出具体解决方法。
检测是否存在lw指令的数据冒险。
检测单元仍放置于CONUNIT部件内，且Reg2reg信号可以唯一区分lw指令和其他指令。检测条件可写为：
((Rs == E_Rd) | (Rt == E_Rd)) & (E_Reg2reg == 0) & (E_Rd != 0) & (E_Wreg == 1)

暂停流水线的实现：
我们可以通过插入气泡来暂停流水线，也即是关闭PC寄存器和IF/ID流水线寄存器组的写使能信号，而且将ID/EX流水线寄存器组的Clrn端口信号清零。

4.2 控制冒险

在处理beq和bne指令时，条件分支指令或者跳转指令的后续指令有可能在目标地址形成之前或分支条件形成之前就已经进入流水线。这样相关的问题就称为控制冒险。下面给出本实验所使用的解决方法。

4.2.1 缩短分支的延迟

流水线中，尽早完成分支的决策，可以减少性能损失假设图中M_Z信号和分支目标地址的输出阶段从MEM级前移到EX级，那么图中（下图）的指令序列只需要被阻塞2个时钟周期就能解决控制冒险因为正确的目标地址在EX级形成，EX级结束时就更新了PC寄存器。
在这里插入图片描述
图4.2-1 分支指令

之后通过如下四步解决控制冒险：

在条件分支指令处于EX级时，判断分支条件是否成立
若成立，则控制部件CONUNIT的STALL端口（流水线阻塞）输出高电平，IF/ID和ID/EX流水线寄存器组的Clrn端口输入为低电平
在该时钟周期结束时，IF/ID和ID/EX流水线寄存器组的内容清0，即变为两条空指令
这样在下一个时钟周期开始时，正确的目标指令处于IF级，ID级和EX级都是编码为全0的空指令，条件分支指令进入到MEM级

五、模块详细设计

5.1取指令部分（IF）

5.1.1 PCAdd4

所处位置
-
模块功能
作为PC寄存器的更新信号。
实现思路
由于每条指令32位，所以增加一个32位加法器，固定与32位的立即数4进行相加，且得到的结果在当前时钟信号的上升沿更新进PC寄存器。
引脚及控制信号
IF_Addr:当前指令地址，输入端口(IF内循环)
IF_PCadd4:下一条指令地址，输出端口
主要实现代码
1.PCAdd4

module PCadd4(PC_o,PCadd4);
input [31:0] PC_o;//偏移量
output [31:0] PCadd4;//新指令地址
CLA_32 cla32(PC_o,4,0, PCadd4, Cout);
endmodule

1.CLA_32

module CLA_32(X, Y, Cin, S, Cout);
input [31:0] X, Y; 
input Cin;   
output [31:0] S;
output Cout;
wire Cout0, Cout1, Cout2, Cout3, Cout4, Cout5, Cout6;    
CLA_4 add0 (X[3:0], Y[3:0], Cin, S[3:0], Cout0);
CLA_4 add1 (X[7:4], Y[7:4], Cout0, S[7:4], Cout1);
CLA_4 add2 (X[11:8], Y[11:8], Cout1, S[11:8], Cout2);
CLA_4 add3 (X[15:12], Y[15:12], Cout2, S[15:12], Cout3);
CLA_4 add4 (X[19:16], Y[19:16], Cout3, S[19:16], Cout4);
CLA_4 add5 (X[23:20], Y[23:20], Cout4, S[23:20], Cout5);
CLA_4 add6 (X[27:24], Y[27:24], Cout5, S[27:24], Cout6);
CLA_4 add7 (X[31:28], Y[31:28], Cout6, S[31:28], Cout);
Endmodule

1.CLA_4

module CLA_4(X, Y, Cin, S, Cout);
input [3:0] X;
input [3:0] Y;
input Cin;
output [3:0] S;
output Cout;
and get_0_0_0(tmp_0_0_0, X[0], Y[0]);
or get_0_0_1(tmp_0_0_1, X[0], Y[0]);
and get_0_1_0(tmp_0_1_0, X[1], Y[1]);
or get_0_1_1(tmp_0_1_1, X[1], Y[1]);

and get_0_2_0(tmp_0_2_0, X[2], Y[2]);
or get_0_2_1(tmp_0_2_1, X[2], Y[2]);
and get_0_3_0(tmp_0_3_0, X[3], Y[3]);
or get_0_3_1(tmp_0_3_1, X[3], Y[3]);
and get_1_0_0(tmp_1_0_0, ~tmp_0_0_0, tmp_0_0_1);
xor getS0(S0, tmp_1_0_0, Cin);
and get_1_1_0(tmp_1_1_0, ~tmp_0_1_0, tmp_0_1_1);
not get_1_1_1(tmp_1_1_1, tmp_0_0_0);
nand get_1_1_2(tmp_1_1_2, Cin, tmp_0_0_1);
nand get_2_0_0(tmp_2_0_0, tmp_1_1_1, tmp_1_1_2);
xor getS1(S1, tmp_1_1_0, tmp_2_0_0);
and get_1_2_0(tmp_1_2_0, ~tmp_0_2_0, tmp_0_2_1);
not get_1_2_1(tmp_1_2_1, tmp_0_1_0);
nand get_1_2_2(tmp_1_2_2, tmp_0_1_1, tmp_0_0_0);
nand get_1_2_3(tmp_1_2_3, tmp_0_1_1, tmp_0_0_1, Cin);
nand get_2_1_0(tmp_2_1_0, tmp_1_2_1, tmp_1_2_2, tmp_1_2_3);
xor getS2(S2, tmp_1_2_0, tmp_2_1_0);
and get_1_3_0(tmp_1_3_0, ~tmp_0_3_0, tmp_0_3_1);
not get_1_3_1(tmp_1_3_1, tmp_0_2_0);
nand get_1_3_2(tmp_1_3_2, tmp_0_2_1, tmp_0_1_0);
nand get_1_3_3(tmp_1_3_3, tmp_0_2_1, tmp_0_1_1, tmp_0_0_0);
nand get_1_3_4(tmp_1_3_4, tmp_0_2_1, tmp_0_1_1, tmp_0_0_1, Cin); 
nand get_2_2_0(tmp_2_2_0, tmp_1_3_1, tmp_1_3_2, tmp_1_3_3, tmp_1_3_4);
xor getS3(S3, tmp_1_3_0, tmp_2_2_0);
not get_1_4_0(tmp_1_4_0, tmp_0_3_0);
nand get_1_4_1(tmp_1_4_1, tmp_0_3_1, tmp_0_2_0);
nand get_1_4_2(tmp_1_4_2, tmp_0_3_1, tmp_0_2_1, tmp_0_1_0);
nand get_1_4_3(tmp_1_4_3, tmp_0_3_1, tmp_0_2_1, tmp_0_1_1, tmp_0_0_0);
nand get_1_4_4(tmp_1_4_4, tmp_0_3_1, tmp_0_2_1, tmp_0_1_1, tmp_0_0_1, Cin);
nand getCout(Cout, tmp_1_4_0, tmp_1_4_1, tmp_1_4_2, tmp_1_4_3,tmp_1_4_4);
assign S = {
   
   S3,S2,S1,S0};
endmodule

5.1.2 PC

所处位置
模块功能
用于给出指令在指令储存器中的地址，且当发生数据冒险时，需要保持PC寄存器不变。
实现思路
为实现稳定输出，在时钟信号的上升沿更新。在发生Lw指令的数据冒险和控制冒险时，PC寄存器应该消除错误指令，而且需要在此周期关闭PC寄存器。
引脚及控制信号
En:控制PC寄存器的开启和关闭状态，外部输入信号。
stall:判断是否发生Lw指令数据冒险，输入信号。
Clk：时钟周期，输入信号
Clrn：当存在Lw指令的数据冒险和控制冒险时为零，输入信号。
IF_Result目标地址，输入信号。
IF_Addr：指令地址，输出信号。
主要实现代码

module PC(IF_Result,Clk,En,Clrn,IF_Addr,stall);
input [31:0]IF_Result;
input Clk,En,Clrn,stall;
output [31:0] IF_Addr;
wire En_S;
assign En_S=En&~stall;
D_FFEC32 pc(IF_Result,Clk,En_S,Clrn,IF_Addr);
endmodule

5.1.3 INSTMEM

所处位置
模块功能
依据当前pc，读取指令寄存器中相对应地址Addr[6:2]的指令。
实现思路
将pc的输入作为敏感变量，当pc发生改变的时候，则进行指令的读取，根据相关的地址，输出指令寄存器中相对应的指令，且在设计指令的时候，要用到12条给出的指令且尽量合理。
引脚及控制信号
IF_Addr：指令地址，输入信号
IF_Inst：指令编码，输出信号
主要实现代码

module INSTMEM(Addr,Inst);//指令存储器
input[31:0]Addr;
output[31:0]Inst;
wire[31:0]Rom[31:0];
assign Rom[5'h00]=32'h20010008;//addi $1,$0,8 $1=8 001000 00000 00001 0000000000001000
assign Rom[5'h01]=32'h3402000C;//ori $2,$0,12 $2=12
assign Rom[5'h02]=32'h00221820;//add $3,$1,$2 $3=20//数据冒险
assign Rom[5'h03]=32'h00412022;//sub $4,$2,$1 $4=4
assign Rom[5'h04]=32'h00222824;//and $5,$1,$2
assign Rom[5'h05]=32'h00223025;//or $6,$1,$2
assign Rom[5'h06]=32'h14220006;//bne $1,$2,6//00010100001000010000000000000110
assign Rom[5'h07]=32'h00221820;//add $3,$1,$2 $3=20
assign Rom[5'h08]=32'h00412022;//sub $4,$2,$1 $4=4
assign Rom[5'h09]=32'h10220002;// beq $1,$2,2
assign Rom[5'h0A]=32'h0800000D;// J 0D 
assign Rom[5'h0B]=32'hXXXXXXXX;
assign Rom[5'h0C]=32'hXXXXXXXX;
assign Rom[5