计算机体系结构 标量处理机

标量处理机

5 标量处理机

5.1 先行控制技术

5.1.1 指令的重叠执行方式

请添加图片描述

指令的三个阶段:

  • 取指令:按照指令计数器的内容访问主存储器,取出一条指令送到指令寄存器

  • 指令分析:对指令的操作码进行译码,按照给定的寻址方式和地址字段中的内容形成操作数地址,并用这个地址读取操作数。分析指令的时候,就要去寄存器中取数了。

  • 指令执行:根据操作码要求,完成规定的功能,将运算结果写到寄存器或主存储器

1 顺序执行

请添加图片描述

  • 优点:控制简单,节省设备
  • 缺点,速度慢
2 一次重叠执行方式

请添加图片描述

缩短时间,提高功能部件利用率

3 二次重叠执行方式

请添加图片描述

执行n条指令的时间为 T = (2+n)*t

5.1.2 先行控制方式的原理

1 采用二次重叠执行方式必须解决两个问题

1) 有独立的取指令部件、指令分析部件和指令执行部件

  • 把一个集中的指令控制器,分解成三个独立的控制器:存储控制器、指令控制器、运算控制器
    2)主存储器的冲突问题
  • 取指令、分析指令、执行指令都可能要访问存储器
2 解决访存冲突的方法

(1)低位交叉存取:不能根本解决冲突问题
(2)两个独立的存储器:独立的指令存储器和数据存储器
在许多高性能处理机中,有独立的指令Cache和数据Cache。这
种结构被称为哈佛结构
(3)先行控制技术
请添加图片描述

3 处理机结构

1) 三个独立的控制器: 存储控制器、指令控制器、运算控制器
2) 四个缓冲栈:先行指令缓冲栈、先行读数缓冲栈、先行操作栈、后行写数栈。
请添加图片描述

先行指令缓冲栈

  • 作用:只要指令缓冲栈没有充满,就自动发出取指令的请求
  • 设置两个程序计数器:线性程序计数器PC1,用来知识取指令;线性程序计数器PC,记录指令分析器正在分析的指令地址

请添加图片描述

存在的主要问题

  • 各类指令“分析”和“执行”的时间相差很大、数据相关、
    转移或转子程序指令
4 指令执行时序
  • 设置了指令缓冲栈,取指令的时间就可以忽略不计。一条指令的执
    行可分为2个过程,即指令分析和指令执行

1) 分析指令和执行指令的时间不相等:
请添加图片描述

2) 采用纤细你个缓冲栈的指令执行过程
请添加图片描述

5 先行缓冲栈

请添加图片描述

设置先行缓冲栈的目的:使指令分析器和指令执行部件能够独立工作

1)先行指令缓冲栈:

处于主存储器与指令分析器之间,用它来平滑主存储器取指令和指令分析器使用指令之间的速度差异

2) 先行操作栈:

  • 采用先进先出方式工作,由指令寄存器堆和控制逻辑组成
  • 指令分析器对已经放在先行指令缓冲栈里的指令进行预处理,把处理之后的指令送入先行操作栈
  • 处于指令分析器和运算控制器之间,使指令分析器和运算器能够各自独立工作

请添加图片描述

3) 先行读数栈

  • 由一组缓冲寄存器和有关控制逻辑等组成,处于主存储器与运算器之间,平滑运算器与主存储器的工作
  • 每个缓冲寄存器由地址寄存器、操作数寄存器和标志三部分组成。也可以把地址寄存器和操作数寄存器合为一个
  • 当收到从指令分析器中送来的有效地址时,将地址的有效标志置位,向主存申请读操作数
  • 读出的操作数存放在操作数寄存器中或覆盖掉地址寄存器中的地址,置位数据有效标志

4) 后行写数栈
请添加图片描述

6 缓冲深度的设计方法

以静态分析为主,通过模拟来确定缓冲深度
1) 先行指令缓冲栈的设计
两种极端情况,设缓冲深度为 DI
尽可能让指令分析不断流
(1) 先行指令缓冲栈已经充满

(2) 先行指令缓冲栈原来为空

5.1.3 数据相关

数据相关: 在执行本条指令的过程中,如果用到的指令、操作数、变址量等是前面指令的执行结果,这种相关称为数据相关。

控制相关: 由条件分支、转子程序指令、中断等引起的相关

  • 解决数据相关的两种方法: 退后处理,设置专用路径。
1 指令相关

在这里插入图片描述
在这里插入图片描述
解决指令相关的根本方法: 在程序执行过程中不允许修改指令

2 主存操作数相关

解决办法:后推法
在这里插入图片描述

3 通用寄存器数据相关

在这里插入图片描述

解决办法

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

4 变址相关

在这里插入图片描述
方法一: 推后分析
方法二: 设置变址相关专用通路
在这里插入图片描述

5.1.4 控制相关

  • 因程序的执行方向可能被改变而引起的相关,也称为全局相关
  • 无条件转移、一般条件转移、复合条件转移、中断
1 无条件转移
  • 在流水线处理机中,无条件转移指令不进入执行流水段,一般在指令译码阶段就实际执行完成
  • 如果在处理机中设置有指令先行缓冲栈,则要全部或部分作废先行指令缓冲栈中的指令

在这里插入图片描述
在这里插入图片描述

2 一般条件转移

在这里插入图片描述

  • 如果条件码是上一条指令产生,要等上一条指令执行完才能判断是否转移成功
    在这里插入图片描述
    在这里插入图片描述
3 复合条件转移

在这里插入图片描述
在这里插入图片描述

4 转移预测技术

1 软件猜测法: 通过编译器尽可能降低转移成功概率
2 硬件猜测法: 通过改变硬件结构来降低转移指令对流水线的影响

  • 在先行指令缓冲站的入口处设置一个简单的指令分析器,当检测到转移指令是们就将转移目标地址L送入先行程序计数器PC1中,同时保留当前PC1中内容到另一个寄存器。
  • 转移成功,猜测正确。对流水线没有影响
  • 转移不成功,用保存下来的地址回复PC1和PC,清除先行指令缓冲栈、先行操作栈和先行读数栈,重新开始取指令

3 两个先行指令缓冲栈

  • 在先行指令缓冲栈中增加一个先行目标缓冲栈
  • 按照转移成功的方向预取指令到先行目标缓冲栈中
  • 先行指令缓冲栈仍然按照转移不成功的方向继续预取指令
  • 如果转移不成功,则继续分析原来先行指令缓冲栈中指令
  • 如果转移成功,则分析新增设的先行目标缓冲栈中的指令

在这里插入图片描述

5.2 流水线技术

空间并行性: 设置多个独立地操作部件
时间并行性: 分时使用同一个部件的不同部分

5.2.1 流水线工作原理

  • 在每一个流水段的末尾或开头必须设置一个寄存器,称为流水寄存器、流水锁存器、流水闸门寄存器等
  • 加入流水寄存器,会增加指令的执行时间

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
流水线的主要特点

  • 只有连续提供同类任务才能发挥流水线效率; 尽量减少因条件分支造成的“断流”,通过编译技术提供连续的相同类型操作
  • 每个流水线段都要设置一个流水寄存器
  • 各流水段的时间应尽量相等。 流水线处理机的基本时钟周期等于时间最长的流水段的时间长度
  • 流水线需要有“装入时间”和“排空时间”

5.2.2 流水线的分类

1 线性流水线和非线性流水线

在这里插入图片描述
在这里插入图片描述

按流水线级别来分
  • 处理机流水线,又称为指令流水线

  • 部件及流水线(操作流水线)
    在这里插入图片描述

  • 宏流水线
    在这里插入图片描述

单功能流水线与多功能流水线
  • 单功能流水线(Unifunction Pipelining):只能完成一种固定功
    能的流水线。
  • 多功能流水线(Multifunction Pipelining):流水线的各段通过
    不同连接实现不同功能
    在这里插入图片描述
4 静态流水线与动态流水线

静态流水线:同一段时间内,各个功能段只能按照一种方式连接,实现一种固定的功能

请添加图片描述

动态流水线: 在同一段时间内,各段可以按照不同的方式连接,同时执行多种功能。

请添加图片描述

5 流水线的其他分类方式
  • 按照数据的表示方法: 标量流水和向量流水
  • 按照控制方式: 同步流水线和异步流水线

请添加图片描述

  • 顺序流水线与乱序流水线,乱序流水线又称为无序流水线、错序流水线或异步流水线等

5.2.3 线性流水线的性能分析

1 吞吐率

T P = n T k TP = \frac{n}{T_k} TP=Tkn
其中:n为任务书,Tk为完成n个任务数所用的时间

  • 各段执行时间相等,输入连续任务情况下,完成n个任务需要的总时间为:
    T k = k △ t + ( n − 1 ) △ t T_k = k\triangle t + (n-1)\triangle t Tk=kt+(n1)t
    各段时间不等,完成n个连续任务:

请添加图片描述

请添加图片描述

(1) 如果瓶颈部分可分,则在细分

请添加图片描述
在这里插入图片描述

(2) “瓶颈”流水段重复设置:增加分配器和收集器

请添加图片描述
)]

请添加图片描述

2 加速比

加速比计算的基本公式
S = 顺序执行时间 T 0 流水线执行时间 T k S = \frac{顺序执行时间T_0}{流水线执行时间T_k} S=流水线执行时间Tk顺序执行时间T0

请添加图片描述

当流水线段数增加时,需要连续输入的任务数也必须增加
请添加图片描述

3 效率

计算流水线效率的一般公式

E = n 个任务展用的时空区 k 个流水段的总时空区 E = \frac{n个任务展用的时空区}{k个流水段的总时空区} E=k个流水段的总时空区n个任务展用的时空区
在这里插入图片描述

请添加图片描述

流水线的吞吐率、加速比与效率的关系

请添加图片描述

流水线最佳段数的选择

在这里插入图片描述
在这里插入图片描述

5 流水线性能分析举例

好好看看这个例子,我感觉会考原题
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.2.4 非线性流水线的调度

非线性流水线调度的任务是要找出一个最小的循环周期,按照这周期向流水线输入新任务,流水线的各个功能段都不会发生冲突,而且流水线的吞吐率和效率最高

1 非线性流水线的表示

流水线预约表
请添加图片描述

2 非线性流水线的冲突
  • 启动距离: 连续输入两个任务之间的时间间隔
  • 流水线冲突: 几个任务争用同一个流水线

请添加图片描述

3 无冲突调度方法

禁止向量 : 预约表中每一行任意两个“×”之间距离的集合。
(3,4,6)

请添加图片描述

冲突向量 C = ( C m C m − 1 . . . C 2 C 1 ) C = (C_mC_{m-1}...C_2C_1) C=(CmCm1...C2C1)
其中:m是禁止向量中的最大值。
如果i在禁止向量中,则Ci=1,否则Ci=0
(3,4,6) C=(101100)

状态图:将冲突向量逻辑右移,若移出去的位是1,则表示用相应启动距离向流水线输入新任务时会产生功能段冲突;若移出去的位是0,则表示不会产生功能段冲突

如果移k位后移出出0,则证明可以在k个间隔后,启动一次。

启动后,更新冲突向量:
请添加图片描述

构造状态转换图:
请添加图片描述

简单循环:在状态图中各种冲突向量只经过一次的启动循环

请添加图片描述

5.2.5 局部相关

指令相关、访存操作数相关和通用寄存器相关等都是局部相关。

1 顺序流动方式

任务按照顺序流入流水线,也按顺序流出流水线

  • 优点: 流水线控制逻辑比较简单
  • 缺点:吞吐率和效率比较低
    在这里插入图片描述

在这里插入图片描述

2 乱序流动方式

指令流入流出流水想的顺序并不相同。错序流动方式、无序流动方式、异步流动方式

在这里插入图片描述

3 乱序流动中的数据相关

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

4 乱序流动中数据相关的避免方法
  • 延迟执行
  • 建立专用路径
    在这里插入图片描述
5 数据重定向方法

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

6 Tomasulo 动态调度算法

5.2.6 全局相关

  • 由条件转移或程序中断引起的相关称为全局相关
  • 处理好条件转移和中断的两个关键问题: 确保流水线正常工作、减少断流引起效率和吞吐率下降
1 条件分支在流水线中执行过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2 条件分支对流水线性能的影响

在这里插入图片描述
在这里插入图片描述

3 条件分支的处理方法
  • 1 延迟转移技术和指令取消技术
  • 2 动态分支预测技术: 根据近期转移是否成功的记录来预测下一次转移的方向
  • 3 静态分支预测技术 : 转移预测的方向是确定的
  • 4 提前形成条件码
4 动态分支预测技术

两个关键问题

  • 如何记录转移历史信息
  • 如何根据历史信息预测转移方向

记录转移历史信息的方法在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5 提前形成条件码
  • 只要在一个时钟周期之内产生条件码,流水线就不会“断流”
6 精确断点与不精确断点

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

采用精确(Precise)断点法,要设置一定数量的后援寄存器,把整个流水线中所有指令的执行结果和现场都保存下来

5.3 超标量处理机

三种主流处理机:

  • 超标量处理机
  • 超流水线处理机
  • 超标量超流水线处理机

在这里插入图片描述

  • 普通标量处理机:一条流水线一个多动嫩个部件,每个时钟周期平均执行指令的条数小于1
  • 多操作部件标量处理机:一条指令流水线,多个独立的操作部件,指令级并行度小于1。
  • 超标量处理机典型结构:多条并行工作的指令流水线,多个独立的操作部件,指令级并行度(ILP)大于1。

在这里插入图片描述
在这里插入图片描述

5.3.2 单发射与多发射

1 单发射处理机

在这里插入图片描述

2 多发射处理机

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

3 超标量处理机
  • 有两条或两条以上能同时工作的指令流水线
  • 先行指令窗口:能够从指令Cache中预取多条指令,能够对窗口内的指令进行数据相关性分析和功能部件冲突检测
  • 操作部件的个数一般多于每个周期发射的指令条数。通常为4 个至16个操作部件
  • 超标量处理机的指令级并行度:1<ILP<m

在这里插入图片描述

5.3.3 多流水线调度

  • 顺序发射(in-order issue)与乱序发射(out-order issue):指令发射顺序是按照程序中指令排列顺序进行的称为顺序发射
  • 顺序完成(in-order completion)与乱序完成(out-order completion):
    指令完成顺序是按照程序中指令排列顺序进行的称为顺序完成

多流水线调度的三种方式:

  • 顺序发射顺序完成
  • 顺序发射乱序完成
  • 乱序发射乱序完成

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

5.3.4 资源冲突

在这里插入图片描述
在这里插入图片描述
这个相差指的是指令序号相差, 如果采用部件操作流水线结构,使用同一操作的部件需要再下个周期被发射,因此序号相差应为m及m以上。

  • 在超标量处理机中,操作部件一般要采用流水线结构
  • 如果由于某种原因,操作部件不能采用流水线结构,则必须设置多个相同种类的操作部件
  • 普通标量处理机,希望相同操作连续出现,只有连续出现相同操作的指令序列时,流水线的效率才能得到充分发挥
  • 超标量处理机则正好相反,希望相同操作不要连续出现,相同操作的指令序列连续出现时,会发生资源冲突;要求相同操作的指令能够相对均匀地分布在程序中

5.3.5 超标量处理机性能

在这里插入图片描述
在这里插入图片描述

5.4 超流水线处理机

在这里插入图片描述

5.4.1 指令执行时序

  • 每隔 1/n 个时钟周期发射一条指令,处理机的流水线周期为1/n个时钟周期。

在这里插入图片描述

5.4.3 超流水线处理机性能

在这里插入图片描述

5.5 超标量超流水线处理机

一个时钟周期发射m次,每次发射n条指令

5.5.1 指令执行时序

在这里插入图片描述

5.5.3 超标量超流水处理机性能

在这里插入图片描述

5.7.4 三种标量处理机的性能比较

在这里插入图片描述
在这里插入图片描述

  • 目前,一般认为,m 和 n 都不要超过 4
  • 一个特定程序由于受到本身的数据相关和控制相关的限制,它的指令级并行度的最大值是有限的,是有个确定的值
  • 3
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值