并行计算复习

解释术语

2⃣️并行计算机类型p35
PVP:并行向量处理机
MPP:大规模并行处理机
COW:工作站机群
SMP:对称多处理机
DSM:分布式共享存储
6⃣️多核架构
CMP:单芯片多处理器/片上多核处理器p89
SMT:同步多线程处理器p94
1⃣️计算机体系结构分类p4
SIMD:单指令多数据流
SISD:单指令单数据流
MISD:多指令单数据流
MIMD:多指令多数据流
2⃣️互连网络的分类p14
静态互联网:处理单元间有着固定连接的一类网络
动态互联网:用交换开关构成的,可按应用程序的要求动态的改变连接组态
2⃣️多级互连网络p18
阻塞网:当前在一对输入输出已建立互联的情况下,要求在任意两个未被使用的输入和输出间建立一个新连接的到达请求,可能被满足也可能不被满足
非阻塞网:在任何一对输入输出已建立连接时,总可以在任何未被使用的输入输出之间建立一个连接
可重安排网:它总可重安排已建立的连接以同时允许建立其他的连接
2⃣️并行计算机访存模型p26
4⃣️共享存储器系统p48
NUMA:非一致内存访问/非均匀存储器访问
UMA:均匀存储访问
COMA:全高速缓存存储体系结构
CC—NUMA:高速缓存一致性非均匀存储访问
NORMA:非远程存储访问
5⃣️消息传递系统p83
虫孔路由:虫孔路由是传统存储转发路由的另一种选择,其目的是为了减少所需缓冲器的大小并减少消息时延。在虫孔路由中,将一个包分给称更小的,称为片的单位,并以流水方式跟随包的片头向目的节点移动。当头片由于网络拥堵而被堵塞时,其余的片也将被堵塞。
9⃣️并行度p139
超线程HT:利用特殊的硬件指令,把两个逻辑内核模拟成两个物理芯片
超标量:通过在CPU 上内置多条流水线,使CPU在一个时钟周期内可以执行多条指令,以空间换取时间
超流水线:通过细化流水线,提高主频,使得在一个周期内完成一个或多个操作,以时间换取空间
超长指令字VLIW:这里的指令是由编译器提取出来的可并行的若干指令组成的长指令,一条长指令用来实现多个操作的并行。
6⃣️多核架构
同构多核:计算内核结构相同,地位对等的核
异构多核:计算内核结构不同,地位不对等的核

简答题

1.并行程序设计有哪些模型?
p147
隐式并行,数据并行,共享变量,消息传递

2.超长指令系统是什么?

3.MPP的特点
p31,35
● 任务并行执行;
● 数据分布式存储(本地化);
● 分布式计算;
● 私有资源;
● 横向扩展;
● Shared Nothing架构。

MPP 具备以下技术特征:

  1. 低硬件成本:完全使用 x86 架构的 PC Server,不需要昂贵的 Unix 服务器和磁盘阵列;
  2. 集群架构与部署:完全并行的 MPP + Shared Nothing 的分布式架构,采用 Non-Master 部署,节点对等的扁平结构;
  3. 海量数据分布压缩存储:可处理 PB 级别以上的结构化数据,采用 hash分布、random 存储策略进行数据存储;同时采用先进的压缩算法,减少存储数据所需的空间,可以将所用空间减少 1~20 倍,并相应地提高 I/O 性能;
  4. 数据加载高效性:基于策略的数据加载模式,集群整体加载速度可达2TB/h;
  5. 高扩展、高可靠:支持集群节点的扩容和缩容,支持全量、增量的备份/恢复;
  6. 高可用、易维护:数据通过副本提供冗余保护,自动故障探测和管理,自动同步元数据和业务数据。提供图形化工具,以简化管理员对数据库的管理工作;
  7. 高并发:读写不互斥,支持数据的边加载边查询,单个节点并发能力大于 300 用户;
  8. 行列混合存储:提供行列混合存储方案,从而提高了列存数据库特殊查询场景的查询响应耗时;
  9. 标准化:支持SQL92 标准,支持 C API、ODBC、JDBC、ADO.NET 等接口规范。

4.UMA或者NUMA的特点(访存模型及特点)
p26,27
共享存储型多处理机有三种模型:均匀存储器存取(Uniform-Memory-Access,简称UMA)模型、非均匀存储器存取(Nonuniform-Memory-Access,简称NUMA)模型和只用高速缓存的存储器结构(Cache-Only Memory Architecture,简称COMA)模型,这些模型的区别在于存储器和外围资源如何共享或分布。
  UMA多处理机模型如图8.23所示。图中,物理存储器被所有处理机均匀共享。所有处理机对所有存储字具有相同的存取时间,这就是为什么称它为均匀存储器存取的原因。每台处理机可以有私用高速缓存,外围设备也以一定形式共享。
在这里插入图片描述
  NUMA多处理机模型如图8.24所示,其访问时间随存储字的位置不同而变化。其共享存储器物理上是分布在所有处理机的本地存储器上。所有本地存储器的集合组成了全局地址空间,可被所有的处理机访问。处理机访问本地存储器是比较快的,但访问属于另一台处理机的远程存储器则比较慢,因为通过互连网络会产生附加时延。
在这里插入图片描述
  COMA模型如图8.25所示,一种只用高速缓存的多处理机。COMA模型是NUMA机的一种特例,只是将后者中分布主存储器换成了高速缓存, 在每个处理机结点上没有存储器层次结构,全部高速缓冲存储器组成了全局地址空间。远程高速缓存访问则借助于分布高速缓存目录进行。
在这里插入图片描述

5.Amdahl定律是什么?
p40
内容,应用范围(固定负载),需要的结论,影响(加速比是有极限的)
在这里插入图片描述
可提升性能倍数 = 1/(串行执行时间比 + 并行执行时间比/cpu数)
适用于固定计算负载问题
通过优化1)串行执行时间比 2)增加cpu数 提升性能。
Amdahl’s law表明在问题的可并行部分不大时,增加处理机的数量并不能显著地加快解决问题的时间。
Amdahl定律的应用
提高处理机的性能:
1、增加处理机的核心个数
改进后系统的加速比:1/[(1-f)+f/n]
其中f为系统可并行执行部分的执行时间占总系统执行时间的百分比
n为处理器核心的增加倍数。而1-f则为串行部分部分的执行时间所占百分比。
2、提高处理机单一核心的频率
在这种情况之下,我们仅仅提高其中一个核心的频率,而其他核心保持不变。上式中n变为核心的频率提高倍数。
而当f>0.5,我们发现只有增加核心的个数才能有效的提高处理器的性能。
当f<0.5时,采用第二种办法,即提高单一核心的频率才能有效提高性能。

Amdahl定律:
1个处理器串行计算时间/n个处理器并行计算时间
f表示串行部分时间所占比例,p表示并行的处理器个数
加速比S( p )=1/(f+(1-f)/p)
当p充分大时,S§趋向于1/f,所以,并行处理器的数量在达到充分大时,已经不能有效改善总体的处理性能。

Gustafson定律:
p个处理器并行计算量/1个处理器的串行计算量
Ws表示串行部分负载量,Wp表示并行部分负载量,W=Ws+Wp,f表示串行负载量所占比例
加速比S( p )=(Ws+pWp)/(Ws+Wp)
=(f
W+p*(1-f)W)/(fW+(1-f)*W)
=(f+p(1-f))/1=f+p(1-f)
P越大,计算量增加越大,计算精度越高

6.多线程技术是什么?(并行)
SMT(同步多线程):容许多个独立的线程在同一个核上同步执行。
多线程的设计思想是:在同一个周期内同时运行来自多个线程的指令,从而更好的利用原有的超标量硬件资源。当存在多个可执行线程时,SMT处理器中同时处于发射就绪状态的指令可以来自不同的线程,处理器中的控制逻辑从中选择能够在同一个周期中执行的指令分配到多个功能部件流水线(即超标量逻辑处理单元)同时执行,若仅有一个线程,则同时多线程处理器也可以作为一个普通的多发射超标量处理器来进行工作。该方式对存储系统带宽要求非常高。目前已经采用同时多线程结构的通用处理器包括Intel,IBM等公司的处理器产品。

7.MPI主要函数
第十章
在这里插入图片描述
8.openmp主要子句及意思
第十一章

9.造成高速缓存不一致的原因
p26

计算题

1.共享存储器系统:处理器的个数,高速访存命中率,总线带宽,处理器速度之间的关系(第四章)

2.Amdahl定律:加速比的计算
例题
假设我们希望升级一个用于提供Web服务的处理器。新处理器执行Web服务应用程序的计算速度是原处理器的10倍。假定原处理器有40%的时间忙于计算,60%的时间等待I/O,进行这一升级后,所得到的总加速比为多少?
解答 升级比例=0.4、升级加速比=10、总加速比 在这里插入图片描述
例题
图形处理器中经常需要的一种转换是求平方根。浮点(FP)平方根的实现在性能方面有很大差异,特别是在为图形设计的处理器中,尤为明显。假设FP平方根(FPSQR)占用一项关键图形基准测试中20%的执行时间。有一项提议:升级FPSQR硬件,使这一运算速度提高到原来的10倍。另一项提议是让图形处理器中所有FP指令的运行速度提高到原来的1.6倍,FP指令占用该应用程序一半的执行时间。设计团队相信,他们使所有FP指令执行速度提高到1.6倍所需要的工作量与加快平方根运算的工作量相同。试比较这两种设计方案。
解答 可以通过计算加速比来对比两种方案:在这里插入图片描述

提高整体FP运算的性能要稍好一些,原因是它的使用频率较高。

例题 磁盘子系统故障率的计算为:在这里插入图片描述

因此,可改进的故障率比例就是5次/百万小时占整个系统23次/百万小时的比例,
即0.22。
解答 可靠性的改进为:在这里插入图片描述
尽管一个模块的可靠性提高了4150倍之巨,但从系统的角度来看,这一改变所带来的好处虽然可测,但数值很小。

3.高速访存一致性协议(写停性,一次性写,存储器与高速cache中的值)

算法

1.求和,求Max,求min
2.排序
3.fox算法cannon算法

编程

1.mpi
2.openmp
1+1/2+1/3……
1-1/2+1/3……

参考资料:
http://book.2cto.com/201301/12892.html
https://blog.csdn.net/qq_18228667/article/details/52620720
https://blog.51cto.com/6992678/1205197

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值