计算机系结构并行性,6计算机体系结构中并行性的发展.PPT

本文探讨了计算机体系结构中并行性的不同等级,从指令内部并行到任务级并行,以及提高并行性的技术途径,如时间重叠、资源共享和资源重复。并介绍了单机系统和多机系统中并行性的发展,涉及耦合度的概念,以及各种并行处理机的类型。
摘要由CSDN通过智能技术生成

6计算机体系结构中并行性的发展

*/18 */18 1.6计算机体系结构中并行性的发展 1.6.1并行性概念 1. 并行性 在同一时刻或是同一时间间隔内完成两种或两种以上性质相同或不相同的工作。 只要时间上互相重叠,就存在并行性。 第一章 计算机体系结构的基本概念 ◆ 同时性 两个或多个事件在同一时刻发生的并行性。 ◆ 并发性 两个或多个事件在在同一时间间隔内发生 的并行性。 1.6 计算机体系结构中并行性的发展 2. 计算机系统中的并行性有不同的等级 ◆ 指令内部并行:指令内部的微操作之间的并行。 ◆ 指令级并行:并行执行两条或多条指令。 ◆ 线程级并行:并发执行多个线程,通常是以一个 进程内控制派生的多个线程为调度单 位。 (1) 从执行程序的角度看,并行性等级从低到 高可分为 1.6 计算机体系结构中并行性的发展 ◆ 任务级或过程级并行:并行执行两个或多个过 程或任务(程序段)。 ◆ 作业或程序级并行:在多个作业或程序间的并行。 1.6 计算机体系结构中并行性的发展 (2) 从处理数据的角度,并行性等级从低到高可以 分为 ◆ 字串位串: 同时只对一个字的一位进行处理。 ◆ 字串位并:同时对一个字的全部位进行处理, 不同字之间是串行的。 ◆ 字并位串:同时对许多字的同一位(称位片)进 行处理。 ◆ 全并行: 同时对许多字的全部或部分位进行处理。 1.6 计算机体系结构中并行性的发展 1.6.2 提高并行性的技术途径 1. 三种途径 (1) 时间重叠 多个处理过程在时间上相互错开,轮 流重叠地使用同一套硬件设备的各个部分, 以加快硬件周转而赢得速度。 1.6 计算机体系结构中并行性的发展 (3) 资源共享 这是一种软件方法,它使多个任务按一定 时间顺序轮流使用同一套硬件设备。 1.6 计算机体系结构中并行性的发展 (2) 资源重复 根据“以数量取胜”的原则,通过重复地 设置资源,尤其是硬件资源,以大幅度提高计 算机系统的性能。 2. 单机系统中并行性的发展 (1) 在发展高性能单处理机过程中,起着主导 作用的是时间重叠这个途径。 实现时间重叠的基础:部件功能专用化。 ◆ 把一件工作按功能分割为若干相互联系的部分; ◆ 把每一部分指定给专门的部件完成; ◆ 然后按时间重叠原则把各部分执行过程在时间 上重叠起来,使所有部件依次分工完成一组同样 的工作。 1.6 计算机体系结构中并行性的发展 例如 对于解释指令的五个过程,就分别需要五个专用的部件,即取指令部件(IF)、指令译码部件(ID)、指令执行部件(EX)、访问存储器部件(M)和写结果部件(WB)。 先行控制 指令流水线,操作流水线 向量处理机 异构型(非对称型)多处理机系统 由多个不同类型、至少担负不同功能的处理机组成,按照作业要求的顺序,利用时间重叠原理,依次对它们的多个任务进行加工,各自完成规定的功能动作。 1.6 计算机体系结构中并行性的发展 部件冗余 多操作部件,多存储体 并行处理机,相联处理机 同构型(对称型)多处理机系统 (2) 在单处理机中,资源重复的运用已经普遍起来。 由多个同类型,至少担负同等功能的处理机组成,同时处理同一作业中能并行执行的多个任务。 1.6 计算机体系结构中并行性的发展 (3) 资源共享 实质:用单处理机模拟多处理机的功能,形成所谓 虚拟机的概念。 多道程序,分时系统 多终端,远程终端 智能终端 分布处理系统 把若干个具有独立功能的处理机(或计算机)相互连接起来,在操作系统全盘控制下,统一协调地工作,而最少依赖集中的程序、数据或硬件。 1.6 计算机体系结构中并行性的发展 3. 多机系统中并行性的发展 (1) 耦合度 反映多机系统的各机器之间的物理连接 的紧密程度和交互作用能力的强弱。 ◆ 最低耦合 耦合度最低的系统。除通过某种中间存 储介质之外,各计算机之间没有物理连接,也 无共享的联机硬件资源。 1.6 计算机体系结构中并行性的发展 ◆ 松散耦合或间接耦合系统 通过通道

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
并行计算是90年代计算技术的一个重要组成部分,它在未来20年的影响可能与微处理器在过去20年的影响一样大。 事实上,随着高度集成的微处理器和内存芯片的发展,使得多处理器系统越来越具有吸引力,这两种技术紧密相连。 从速度最快的超级计算机,到部门计算服务器,再到个人桌面,多处理器已经代表了计算市场几乎每个部分的高性能终端。 在过去,计算机供应商采用一系列技术来提高整个产品线的性能。 今天,同样最先进的微处理器被广泛使用。 要获得显著的性能范围,最简单的方法是增加处理器的数量,而规模经济使这一点极具吸引力。 很快,几个处理器就可以装在一个芯片上。 4 草稿:并行计算机架构8/29/97 虽然并行计算有着悠久而丰富的学术历史,但是与商品技术的紧密结合从根本上改变了这门学科。 对基本架构和外来技术的强调已经让位于定量分析和仔细的工程权衡。 我们写这本书的目的是使新兴的多处理器系统的设计者,从适度并行的个人计算机到大规模并行的超级计算机,了解基本的架构问题和处理设计权衡的可用技术。 同时,我们希望为这些机器的软件系统设计人员提供对体系结构发展的可能方向的理解,以及确定硬件设计将遵循的特定路径的力量。 并行计算机体系结构最近最令人兴奋的开发是传统上完全不同的方法(即共享内存、消息传递、SIMD和数据流)在一个公共机器结构上的聚合。 这部分是由于共同的技术和经济力量,部分是由于更好地理解并行软件。 这种聚合使我们能够专注于最重要的体系结构问题,并开发一个通用框架,在其理解和评估体系结构的权衡。 此外,并行软件已经成熟到流行的并行编程模型可以在广泛的机器上使用,并且存在有意义的基准测试。 这一领域的成熟使得对硬件/软件交互进行定量和定性研究成为可能。 事实上,它需要这样一种方法。 本书遵循了一系列对所有并行架构都至关重要的问题——通信延迟、通信带宽以及跨整个现代设计的协作工作的协调。 它描述了用于解决每个问题的硬件和软件可用的一组技术,并探讨了各种技术如何交互。 案例研究提供了一般原则的具体说明,并说明了机制之间的具体相互作用。 我们的最终动机来自于目前我们在斯坦福、伯克利和普林斯顿的课程缺乏足够的课本。 现有的很多教材对材料的涉及面都比较粗略,只是对各种建筑和研究成果进行了总结,并没有对其进行深入的分析。 另一些人专注于特定的项目,但没有认识到可用于替代方法的原则。 该领域的研究报告提供了大量的经验数据,但还没有提炼成一个连贯的画面。 我们希望通过集注意技术融合背景下的突出问题,而不是使我们走到这一点的丰富和多样的历史,对该领域提供更深刻和更连贯的了解。
第一章 计算机体系结构的基本概念 1.1 引论 1.2 计算机体系结构的概念 1.2.1 计算机系的层次概念 1.2.2 计算机体系结构 1.2.3 计算机组成和计算机实现技术 1.3 计算机体系结构发展 1.3.1 存储程序计算机体系结构及其发展 1.3.2 计算机的分代和分型 1.3.3 应用需求的发展 1.3.4 计算机实现技术的发展 1.3. 5 体系结构的生命周期 1.4 计算机体系结构并行性发展 1.4.1并行性概念 1.4.2 提高并行性的技术途径 1.5 定量分析技术基础 1.5.1 计算机性能的评测 1.5.2 测试程序 1.5.3 性能设计和评测的基本原则 1.5.4 CPU的性能 1.6 影响计算机体系结构的成本和价格因素 1.6.1 集成电路的成本 1.6.2 计算机系统的成本和价格 1.7 小结习题一第二章 计算机指令集结构设计 2.1 指令集结构的分类 2.1.1 指令集结构的分类 2.1.2 通用寄存器型指令集结构分类 2.2 寻址技术 2.3 指令集结构的功能设计 2.3.1 CISC计算机指令集结构的功能设计 2.3.2 RISC计算机指令集结构的功能设计 2.3.3 控制指令 2.4 操作数的类型、表示和大小 2.5 指令集格式的设计 2.5.1 寻址方式的表示方法 2.5.2 指令集格式的选择 2.6 编译技术与计算机体系结构设计 2.6.1 现代编译器的结构和相关技术 2.6.2 现代编译技术对计算机体系结构设计的影响 2.6.3 计算机体系结构对当前编译技术的影响 2.7 DLX指令集结构 2.7.1 DLX指令集结构 2.7.2 DLX指令集结构效能分析 2.8 小结习题二第三章 流水线技术 3.1 流水线的基本概念 3.1.1 流水线的基本概念 3.1.2 流水线的分类 3.2 DLX的基本流水线 3.2.1 DLX的一种简单实现 3.2.2 基本的DLX流水线 3.2.3 流水线性能分析 3. 3 流水线的相关 3.3.1 流水线的结构相关 3.3.2 流水线的数据相关 3.3.3 流水线的控制相关 3.4 流水线计算机实例分析(MIPS R4000) 3.4.1 MIPS R4000整型流水线 3.4.2 MIPS R4000浮点流水线 3.4.3 MIPS R4000流水线的性能分析 3.5 向量处理机 3.5.1 向量处理方式和向量处理机 3.5.2 向量处理机实例分析 3.6 小结习题三第四章 指令级并行 4.1 指令级并行的概念 4.1.1 循环展开调度的基本方法 4.1.2 相关性 4.2 指令的动态调度 4.2.1 动态调度的原理 4.2.2 动态调度算法之一:记分牌 4.2.3 动态调度算法之二:Tomasulo算法 4.3 控制相关的动态解决技术 4.3.1 减少分支延迟:分支预测缓冲技术 4.3.2 进一步减少分支延迟:分支目标缓冲 4.3.3 基于硬件的推断执行 4.4 多指令流出技术 4.4.1 超标量技术 4.4.2 多指令流出的动态调度 4.4.3 超长指令字技术 4.4.4 多流出处理器受到的限制 4.5 小结习题四第五章 存储层次 5.1 存储器的层次结构 5.1.1 从单级存储器到多级存储器 5.1.2 存储层次的性能参数 5.1.3 “Cache—主存”和“主存—辅存”层次 5.1.4 存储层次的四个问题 5.2 Cache基本知识 5.2.1 映象规则 5.2.2 查找方法 5.2.3 替换算法 5.2.4 写策略 5.2.5 Cache的结构 5.2.6 Cache性能分析 5.2.7 改进Cache性能 5.3 降低Cache失效率的方法 5.3.1 增加Cache块大小 5.3.2 提高相联度 5.3.3 Victim Cache 5.3.4 伪相联Cache 5.3.5 硬件预取技术 5.3.6 由编译器控制的预取 5.3.7 编译器优化 5.4 减少Cache失效开销 5.4.1 让读失效优先于写 5.4.2 子块放置技术 5.4.3 请求字处理技术 5.4.4 非阻塞Cache技术 5.4.5 采用两级Cache 5.5 减少命时间 5.5.1 容量小,结构简单的Cache 5.5.2 虚拟Cache 5.5.3 写操作流水化 5.5.4 Cache优化技术小结 5.6 主存 5.6.1 存储器技术 5.6.2 提高主存性能的存储器组织结构 5.7 虚拟存储器 5.7.1 虚拟存储器基本原理 5.7.2 快表(TLB) 5.7.3 页面大小的选择 5.8 进程保护和虚存实例 5.8.1 进程保护 5.8.2 页式虚存举例:Alpha AXP的存储管理和21064的TLB 5.9 Alpha AXP 21064存储层次 5.10 小结习题五第六章 输入输出系统 6.1 概述 6.2 存储设备 6.2.1 磁盘设备 6.2.2 磁带设备 6.2.3 光盘设备 6.3 总线 6.3.1 总线分类 6.3.2 总线基本工作原理 6.3.3 总线使用 6.3.4 总线标准和实例 6.3.5 设备的连接 6.3.6 CPU与I/O处理的匹配 6.4 通道处理机 6.4.1 通道的作用和功能 6.4.2 通道的工作过程 6.4.3 通道种类 6.4.4 通道的数据传送过程 6.4.5 通道的流量分析 6.5 I/O与操作系统 6.5.1 I/O和Cache数据一致性 6.5.2 DMA和虚拟存储器 6.6 I/O系统设计 6.7 小结习题六第七章 多处理机 7.1 引言 7.1.1 并行计算机体系结构的分类 7.1.2 通信模型和存储器的结构模型 7.1.3 通信机制的性能 7.1.4 不同通信机制的优点 7.1.5 并行处理面临的挑战 7.1.6 并行程序的计算/通信比率 7.2 多处理机的存储器体系结构 7.2.1 集式共享存储器体系结构 7.2.2 分布式共享存储器体系结构 7.3 互连网络 7.3.1 互连网络的性能参数 7.3.2 静态连接网络 7.3.3 动态连接网络 7.4 同步与通信 7.4.1 同步机制 7.4.2 大规模机器的同步 7.5 并行化技术 7.5.1 并行化的基本策略 7.5.2 并行语育与编译器 7.6 多处理机实例 7.6.1 Challenge多处理机系统 7.6.2 Origin 20007.
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值