多周期CPU设计与实现实验

小火龙每年都会对实验内容进行一定的修改,以下实验仅为17年报告
代码下载
一. 实验目的
(1) 认识和掌握多周期数据通路原理及其设计方法;
(2) 掌握多周期CPU的实现方法,代码实现方法;
(3) 编写一个编译器,将MIPS汇编程序编译为二进制机器码;
(4) 掌握多周期CPU的测试方法;
(5) 掌握多周期CPU的实现方法。

二. 实验内容
设计一个多周期CPU,该CPU至少能实现以下指令功能操作。需设计的指令与格式如下:(说明:操作码按照以下规定使用,都给每类指令预留扩展空间,后续实验相同。)
==>算术运算指令
(1)add rd, rs, rt
000000 rs(5位) rt(5位) rd(5位) reserved
功能:rd<-rs + rt
(2)sub rd, rs, rt
000001 rs(5位) rt(5位) rd(5位) reserved
完成功能:rd<-rs - rt
(3)addi rt, rs, immediate
000010 rs(5位) rt(5位) immediate(16位)
功能:rt<-rs + (sign-extend)immediate

==>逻辑运算指令
(4)or rd, rs, rt
010000 rs(5位) rt(5位) rd(5位) reserved
功能:rd<-rs | rt
(5)and rd, rs, rt
010001 rs(5位) rt(5位) rd(5位) reserved
功能:rd<-rs & rt
(6)ori rt, rs, immediate
010010 rs(5位) rt(5位) immediate
功能:rt<-rs | (zero-extend)immediate

==>移位指令
(7)sll rd, rt,sa
011000 未用 rt(5位) rd(5位) sa(5位) reserved
功能:rd<-rt<<(zero-extend)sa,左移sa位 ,(zero-extend)sa

==>比较指令
(8) slt rd, rs, rt 带符号数
100110 rs(5位) rt(5位) rd(5位) reserved
功能:if (rs < rt) rd =1 else rd=0, 具体请看表2 ALU运算功能表,带符号
(9) slti rt, rs,immediate 带符号
100111 rs(5位) rt(5位) immediate(16位)
功能:if (rs <(sign-extend)immediate) rt =1 else rt=0, 具体请看表2 ALU运算功能表,带符号

==>存储器读写指令
(10)sw rt, immediate(rs)
110000 rs(5位) rt(5位) immediate(16位)
功能:memory[rs+ (sign-extend)immediate]<-rt。即将rt寄存器的内容保存到rs寄存器内容和立即数符号扩展后的数相加作为地址的内存单元中。

(11)lw rt, immediate(rs)
110001 rs(5位) rt(5位) immediate(16位)
功能:rt <- memory[rs + (sign-extend)immediate]。即读取rs寄存器内容和立即数符号扩展后的数相加作为地址的内存单元中的数,然后保存到rt寄存器中。

==>分支指令
(12)beq rs,rt, immediate (说明:immediate从pc+4开始和转移到的指令之间间隔条数)
110100 rs(5位) rt(5位) immediate(16位)
功能:if(rs=rt) pc <-pc + 4 + (sign-extend)immediate <<2 else pc <-pc + 4
(13)bne rs,rt, immediate (说明:immediate从pc+4开始和转移到的指令之间间隔条数)
110101 rs(5位) rt(5位) immediate(16位)
功能:if(rs!=rt) pc <-pc + 4 + (sign-extend)immediate <<2 else pc <-pc + 4
(14)bgtz rs,immediate
110110 rs(5位) 00000 immediate
功能:if(rs>0) pc←pc + 4 + (sign-extend)immediate <<2 else pc ←pc + 4

==>跳转指令
(15)j addr
111000 addr[27:2]
功能:pc <-{(pc+4)[31:28],addr[27:2],0,0},跳转。
说明:由于MIPS32的指令代码长度占4个字节,所以指令地址二进制数最低2位均为0,将指令地址放进指令代码中时,可省掉!这样,除了最高6位操作码外,还有26位可用于存放地址,事实上,可存放28位地址,剩下最高4位由pc+4最高4位拼接上。

(16)jr rs
111001 rs(5位) 未用 未用 reserved
功能:pc <- rs,跳转。

==>调用子程序指令
(17)jal addr
111010 addr[27…2]
功能:调用子程序,pc <- {(pc+4)[31:28],addr[27:2],0,0};$31<-pc+4,返回地址设置;子程序返回,需用指令 jr $31。跳转地址的形成同 j addr 指令。

==>停机指令
(18)halt (停机指令)
111111 00000000000000000000000000(26位)
不改变pc的值,pc保持不变。

三. 实验原理
多周期CPU指的是将整个CPU的执行过程分成几个阶段,每个阶段用一个时钟去完成,然后开始下一条指令的执行,而每种指令执行时所用的时钟数不尽相同,这就是所谓的多周期CPU。CPU在处理指令时,一般需要经过以下几个阶段:
(1) 取指令(IF):根据程序计数器pc中的指令地址,从存储器中取出一条指令,同时,pc根据指令字长度自动递增产生下一条指令所需要的指令地址,但遇到“地址转移”指令时,则控制器把“转移地址”送入pc,当然得到的“地址”需要做些变换才送入pc。
(2) 指令译码(ID):对取指令操作中得到的指令进行分析并译码,确定这条指令需要完成的操作,从而产生相应的操作控制信号,用于驱动执行状态中的各种操作。
(3) 指令执行(EXE):根据指令译码得到的操作控制信号,具体地执行指令动作,然后转移到结果写回状态。
(4) 存储器访问(MEM):所有需要访问存储器的操作都将在这个步骤中执行,该步骤给出存储器的数据地址,把数据写入到存储器中数据地址所指定的存储单元或者从存储器中得到数据地址单元中的数据。
(5) 结果写回(WB):指令执行的结果或者访问存储器中得到的数据写回相应的目的寄存器中。
实验中就按照这五个阶段进行设计,这样一条指令的执行最长需要五个(小)时钟周期才能完成,但具体情况怎样?要根据该条指令的情况而定,有些指令不需要五个时钟周期的,这就是多周期的CPU。
这里写图片描述
图1 多周期CPU指令处理过程
MIPS指令的三种格式:
这里写图片描述
其中,
op:为操作码;
rs:为第1个源操作数寄存器,寄存器地址(编号)是0000011111,001F;
rt:为第2个源操作数寄存器,或目的操作数寄存器,寄存器地址(同上);
rd:为目的操作数寄存器,寄存器地址(同上);
sa:为位移量(shift amt),移位指令用于指定移多少位;
funct:为功能码,在寄存器类型指令中(R类型)用来指定指令的功能;
immediate:为16位立即数,用作无符号的逻辑操作数、有符号的算术操作数、数据加载(Load)/数据保存(Store)指令的数据地址字节偏移量和分支指令中相对程序计数器(PC)的有符号偏移量;
address:为地址。
这里写图片描述
图2 多周期CPU状态转移图
状态的转移有的是无条件的,例如从sIF状态转移到sID就是无条件的;有些是有条件的,例如sEXE状态之后不止一个状态,到底转向哪个状态由该指令功能,即指令操作码决定。每个状态代表一个时钟周期。
这里写图片描述
图3 多周期CPU控制部件的原理结构图
图3是多周期CPU控制部件的电路结构,三个D触发器用于保存当前状态,是时序逻辑电路,RST用于初始化状态“000“,另外两个部分都是组合逻辑电路,一个用于产生下一个阶段的状态,另一个用于产生每个阶段的控制信号。从图上可看出,下个状态取决于指令操作码和当前状态;而每个阶段的控制信号取决于指令操作码、当前状态和反映运算结果的状态zero标志和符号sign标志。
这里写图片描述
图4 多周期CPU数据通路和控制线路图

图4是一个简单的基本上能够在多周期CPU上完成所要求设计的指令功能的数据通路和必要的控制线路图。其中指令和数据各存储在不同存储器中,即有指令存储器和数据存储器。访问存储器时,先给出内存地址,然后由读或写信号控制操作。对于寄存器组,给出寄存器地址(编号),读操作时,输出端就直接输出相应数据;而在写操作时,在 WE使能信号为1时,在时钟边沿触发将数据写入寄存器。图中控制信号功能如表1所示,表2是ALU运算功能表。
特别提示,图上增加IR指令寄存器,目的是使指令代码保持稳定,pc写使能控制信号PCWre,是确保pc适时修改,原因都是和多周期工作的CPU有关。ADR、BDR、ALUoutDR、DBDR四个寄存器不需要写使能信号,其作用是切分数据通路,将大组合逻辑切分为若干个小组合逻辑,大延迟变为多个分段小延迟。
表1 控制信号作用
这里写图片描述
这里写图片描述

相关部件及引脚说明:
Instruction Memory:指令存储器
Iaddr,指令地址输入端口
DataIn,存储器数据输入端口
DataOut,存储器数据输出端口
RW,指令存储器读写控制信号,为0写,为1读
Data Memory:数据存储器
Daddr,数据地址输入端口
DataIn,存储器数据输入端口
DataOut,存储器数据输出端口
/RD,数据存储器读控制信号,为0读
/WR,数据存储器写控制信号,为0写
Register File:寄存器组
Read Reg1,rs寄存器地址输入端口
Read Reg2,rt寄存器地址输入端口
Write Reg,将数据写入的寄存器,其地址输入端口(rt、rd)
Write Data,写入寄存器的数据输入端口
Read Data1,rs寄存器数据输出端口
Read Data2,rt寄存器数据输出端口
WE,写使能信号,为1时,在时钟边沿触发写入
IR: 指令寄存器,用于存放正在执行的指令代码
ALU: 算术逻辑单元
result,ALU运算结果
zero,运算结果标志,结果为0,则zero=1;否则zero=0
sign,运算结果标志,结果最高位为0,则sign=0,正数;否则,sign=1,负数
表2 ALU运算功能表
这里写图片描述
图5、6 信号控制表
这里写图片描述
这里写图片描述
表3 测试程序代码
这里写图片描述

表4 状态模块数据读取/写入表
这里写图片描述

PC的读取是在每条指令最后状态的上升沿,例如j等最后状态为001的则在001上升沿读取,beq等最后状态为010的则在010上升沿读取。

图7 各指令最后状态的数据显示表
这里写图片描述
附:当最后状态为001时,jal写入寄存器$31的值为PC+4。当最后状态为011时,写入寄存器组的值为DB。当最后状态为100,写入/读取RAM的地址为result。
图8 寄存器组数据变化
这里写图片描述

四. 实验器材
电脑一台,Xilinx Vivado 软件一套,Basys3板一块。

五. 实验过程与结果
1.实验过程
图9 流程图
这里写图片描述
根据图9的流程图,以及时序电路的D触发器需要一个周期传数据的特性,我把数据通路图根据状态分成了五部分。IF的上升沿IR读取指令;ID时IR指令刷新,通过指令分割模块生成op、rs、rt、rd、sa、立即数和地址,上升沿时控制器根据op码生成新的控制信号,ADR和BDR保存新的ReadData,给下一周期EXE使用;EXE时ADR和BDR的值传出到ALU中进行计算,上升沿时刷新控制器,以及写入ALUDR(lw和sw)和DBDR(非lw和sw);MEM时ALUDR数值刷新,RAM根据指令,如果是lw则传出相应地址的数据,并且上升沿写到DBDR中,如果是sw则RAM下降沿写入相应地址的数据;最后WB阶段则下降沿将DB的数据写入寄存器组。所有指令在最后状态的上升沿写入新的PC,因此PC能在状态“000”即IF时能够刷新PC,以供IR读取指令使用,整个CPU的状态可以循环,直到halt停止。

这里写图片描述
右图是我根据数据通路图各个组件设计的CPU的各个部分。与上一个单周期CPU相比,消抖模块U1,PC模块U2,指令存储器U3,指令分割模块U5,寄存器组U6,立即数扩展模块U7,ALU模块U8(仅调整对应ALUop码),RAM以及LED显示模块没有更改,都是沿用单周期CPU的设计,新增了IR以及DR等模块用来分割电路,并重写了ControlUnit控制模块和选择模块,秉着代码复用的原则设计二选一、三选一、四选一,二选一能多次使用。

下面将会简要描述编译器,控制端,IR的实现,这也是这次实验花时间最多的地方。
(1)编译器
这里写图片描述
这里写图片描述
先把指令以及对应的指令类型和op码用map储存起来,然后将mips指令转化为op码,数字根据类型用bitset类转成二进制,转成string输出到文件中。一开始先用的是单周期的mips进行编译,没有发现问题。后来经过人脑编译,发现j类型指令用了十六进制读取,导致后面的十进制数字读取也变成十六进制,使得编译出错(例如读取十进制31的时候输出变成了49(0x31),每次读取强制定义读取数字类型即可解决。

(2)Control Unit
在这里插入图片描述这里写图片描述
这里写图片描述
跟设计单周期CPU类似,多周期CPU只要控制了PC地址的写入,IR指令的写入,寄存器组和RAM的写入和读取即可。因此设想一开始只要在时钟上升沿更改PCWre,IRWre,RD,WR,RegWre五个即可,其余的可以用组合逻辑电路解决。
每个状态因为D触发器的延迟都需要提前更改状态以及对应状态的控制信号以便下一个时钟信号使用,例如状态000时在上升沿先改成001以及001的时候各种控制信号。
因为指令要在状态001的时候才会成功传输到控制模块,在遇到j,jal,jr的时候,再改变op码已经慢了(否则要在010的时候RegWre才会更改,但是001会跳转到000,导致PC4没有写到寄存器组$31内)。因此解决方案是把写寄存器信号改成组合逻辑电路触发,能够及时改变写寄存器组信号。
同样出现这个问题的还有PCWre,在跳转指令需要在001的时候写入PC,但是因为001才收到正确的op码,写PC信号来不及改变导致PC写不进去,同样需要把PCWre改成组合电路触发。
这里写图片描述
控制信号表在设计控制模块能够体现出来,除去PCWre,IRWre,RegWre,RD,WR使用case会大大增加代码量,既不美观,也不容易找出当中的错误,通过控制信号表可以节省代码量,更容易找出设计当中的错误。

(3)IR
这里写图片描述
IR和DR的区别相当与D触发器加了一条回路使得IR能够在不写入新指令的时候一直保存原来的值,使得指令的输出趋于稳定。
与数据通路图不同的是我在IR里面加入了reset信号,CPU清零的时候能重新读入第一条指令。因为清零时控制模块state设成0,但是指令还没都进去,如果没有时钟触发读信号,则下一个时钟是001就没有读信号了,IR会保持清零前指令,可能会导致寄存器组数据的错误,于是需要reset信号,相当于initial的作用。
其余设计与单周期CPU设计相同。
(1)消抖模块
这里写图片描述
这里设定了sample_time为20ns,只要20ns里面按键有变化,则在这20ns里面高电平和低电平都不会持续20ns,因此不变,直到抖动过后保持20ns才会改变值。
(2)指令存储器ROM
这里写图片描述
ROM采用组合电路触发,在读信号为1时,开启大段读模式,传输到IR。
(3)指令分割模块instruction
这里写图片描述
这是指令分割模块,方便后续的操作,不用每次都要手动分割。在数据通路上sa是5位数,然而传进去是32位,因此我在数据分割的时候,顺便把sa的位数扩展了,方便sll的操作,同时二选一也不用特地重新设计一个新的。
(4)寄存器组
这里写图片描述
这里删除了清零时写数据的代码,因为不像单周期那样一周期要完成改PC和写寄存器组,因此不需要reset时写寄存器组,写寄存器组最快也要jal状态为001。
(5)位数扩展
这里写图片描述
这是位数扩展模块,若ExtSel为0,则对立即数进行补0扩展,否则对立即数进行符号扩展。

  • 8
    点赞
  • 59
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值