武汉理工大学-并行计算-2020年期末复习指南

最新推荐文章于 2022-06-22 20:36:58 发布

咸鱼_咸

最新推荐文章于 2022-06-22 20:36:58 发布

阅读量6.3k

点赞数 39

分类专栏：烽火计划文章标签：并行计算

本文链接：https://blog.csdn.net/qq_43724306/article/details/109402553

版权

烽火计划专栏收录该内容

15 篇文章 6 订阅

订阅专栏

并行计算-2020-复习指南

制作：纪元

本提纲遵循CC-BY-NC-SA协议

(署名-非商业性-相同方式共享)

文章目录

符号释义

$\lfloor \rfloor$ ：向下取整数
$\lceil \rceil$ ：向上取整数

题型设置

选择 20x2
填空 10x2
简答 2x10
编程 2*10

并行计算机系统及其结构模型

存储墙

内存墙，指的是内存性能严重限制CPU性能发挥的现象。

在过去的20多年中，处理器的性能以每年大约55%速度快速提升，而内存性能的提升速度则只有每年10%左右。长期累积下来，不均衡的发展速度造成了当前内存的存取速度严重滞后于处理器的计算速度，内存瓶颈导致高性能处理器难以发挥出应有的功效，这对日益增长的高性能计算(High Performance Computing,HPC)形成了极大的制约。事实上，早在1994年就有科学家分析和预测了这一问题，并将这种严重阻碍处理器性能发挥的内存瓶颈命名为"内存墙"(Memorya Wall)。

在这里插入图片描述

互联网络

网络性能指标

节点度(Node Degree)：射入或射出一个节点的边数。在单向网络中，入射和出射边之和称为节点度。
网络直径(Network Diameter)：网络中任何两个节点之间的最长距离，即最大路径数。
对剖宽度(Bisection Width) ：对分网络各半所必须移去的最少边数
对剖带宽( Bisection Bandwidth):每秒钟内，在最小的对剖平面上通过所有连线的最大信息位(或字节)数
对称(Symmetry):从任一节点观看网络都一样

静态互连网络

静态互连网络：处理单元间有着固定连接的一类网络，在程序执行期间，这种点到点的链接保持不变；典型的静态网络有一维线性阵列、二维网孔、树连接、超立方网络、立方环、洗牌交换网、蝶形网络等。
嵌入(Embedding)：指将网络中的各节点映射到另一个网络中去。
膨胀(Dilation)：系数来描述嵌入的质量，它是指被嵌入网络中的一条链路在所要嵌入的网络中对应所需的最大链路数。如果该系数为1，则称为完美嵌入。
- 例如，一个环网可完美嵌入到2-D 环绕网中。同样，一个超立方网也可以完美嵌入到2-D环绕网中。并非所有网络之间均可实现完美嵌入。
- 一般而言，对于高度为 h 的完全二叉树，其膨胀系数为 $\lceil{h/2}\rceil$ 。

网络名称	网络规模	节点度	网络直径	对剖宽度	对称	链路数
线性阵列	$N$	$2$	$N - 1$	$1$	非	$N - 1$
环形	$N$	$2$	$N-1(单向)\\\lfloor{N}/2\rfloor(双向)$	$2$	是	$N$
2-D网孔	$(\sqrt{N}\times\sqrt{N})$	$4$	$2(\sqrt{N}-1)$	$\sqrt{N}$	非	$2(N-\sqrt{N})$
Illiac网孔	$(\sqrt{N}\times\sqrt{N})$	$4$	$\sqrt{N}-1$	$2\sqrt{N}$	非	$2 N$
2-D环绕	$(\sqrt{N}\times\sqrt{N})$	$4$	$2(\lfloor\sqrt{N}/2\rfloor)$	$2\sqrt{N}$	是	$2 N$
二叉树	$N$	$3$	$2\lceil\log{N}\rceil-1$	$1$	非	$N - 1$
星形	$N$	$N - 1$	$2$	$\lfloor{N/2}\rfloor$	非	$N - 1$
超立方	$N=2^n$	$n$	$n$	$N / 2$	是	$n N / 2$
立方环	$N=k\times2^k$	$3$	$2k-1+\lfloor{k/2}\rfloor$	$N/{(2k)}$	是	$3 N / 2$

在这里插入图片描述

完美嵌入(膨胀系数=1)

在这里插入图片描述

不完美嵌入(膨胀系数=2)

在这里插入图片描述

动态互连网络

动态网络：用交换开关构成的，可按应用程序的要求动态地改变连接组态；典型的动态网络包括总线、交叉开关和多级互连网络等。
总线(Bus)实际上是连接处理器、存储模块和Ｉ/Ｏ外围设备等的一组导线和插座。总线系统用以主设备(如处理器)和从设备(如存储器)之间的数据传输。公用总线以分时工作为基础，在多个请求情况下，总线的仲裁是重要的。
局部/本地总线(Local Bus)：在印刷电路板上实现的总线
- 本地总线：CPU板级上的总线(习惯叫法)
- 存储器总线：存储器板级上的总线
- 数据总线：Ｉ/Ｏ板级和通信板级上的总线。
- 系统总线：在底板上实现的，它为所有插入板之间的通信提供了通路。
局部/本地总线+存储器总线，将处理器与存储模块相连；
Ｉ/Ｏ总线+系统总线，将Ｉ/Ｏ设备、网卡等连接起来。
- Ｉ/Ｏ总线有时也叫作小型机系统接口SCSI(Small Computer System Interface)总线。
绝大多数标准总线都可低价构造单一处理系统(Unity Processor System)。在构造多处理器系统时，常使用多总线和层状总线。

板级、底板级和Ｉ/Ｏ级总线系统:

在这里插入图片描述

总线系统造价最低，但易冲突；
交叉开关造价最高，但带宽和选路性能最好；
多级互连网络是总线与交叉开关的折衷
- 主要优点采用模块结构，可扩展性好
- 但延迟随网络尺寸对数增长。

在这里插入图片描述

并行计算机结构

定义

大型并行机系统一般可分为6类机器，SIMD计算机多为专用，其余的5种均属于多指令多数据流MIMD计算机。

单指令多数据流SIMD
并行向量处理机PVP
- 多为定制，通常不使用高速缓存，而是使用大量的向量寄存器和指令缓冲器
对称多处理机SMP
- 系统对称，每个处理器可等同的访问共享存储器、Ｉ/Ｏ设备和操作系统服务。能开拓较高的并行度
- 是共享存储，限制系统中的处理器不能太多(一般少于64个)，同时总线和交叉开关互连一旦作成也难于扩展。
大规模并行处理机MPP
- 处理节点采用商品微处理器；
- 系统中有物理上的分布式存储器；
- 采用高通信带宽和低延迟的互连网络(专门设计和定制的)；
- 能扩放至成百上千乃至上万个处理器；
- 它是一种异步的MIMD机器，程序系由多个进程组成，每个都有其私有地址空间，进程间采用传递消息相互作用。
工作站机群COW
- COW的每个节点都是一个完整的工作站(不包括监视器、键盘、鼠标等)，也可以是一台PC或SMP；
- 各节点通过一种低成本的商品(标准)网络(如以太网、FDDI和ATM开关等)互连(有的商用机群也使用定做的网络)；
- 各节点内总是有本地磁盘，而MPP节点内却没有；
- 节点内的网络接口是松散耦合到Ｉ/Ｏ总线上的，而MPP内的网络接口是连到处理节点的存储总线上的，因而可谓是紧耦合式的；
- 一个完整的操作系统驻留在每个节点中，而MPP中通常只是个微核，COW的操作系统是工作站UNIX，加上一个附加的软件层以支持单一系统映像、并行度、通信和负载平衡等
分布共享存储DSM多处理机。
- DSM在物理上有分布在各节点中的局部存储，从而形成了一个共享的存储器。对用户而言，系统硬件和软件提供了一个单地址的编程空间。DSM相对于MPP的优越性是编程较容易。

属性	PVP	SMP	MPP	DSM	cow
结构类型	MIMD	MIMD	MIMD	MIMD	MIMD
处理器类型	专用	定制	商用	商用	商用
互连网络	定制交叉开关	总线、交叉开关	定制网络	定制网络	商用网络(以太ATM)
通信机制	共享变量	共享变量	消息传递	共享变量	消息传递
地址空间	单地址空间	单地址空间	多地址空间	单地址空间	多地址空间
系统存储器	集中共享	集中共享	分布非共享	分布共享	分布非共享
访存模型	UMA	UMA	NORMA	NUMA	NORMA

图示

B(Bridge)是存储总线和Ｉ/Ｏ总线间的接口
DIR(CacheDirectory)是高速缓存目录
IOB(Ｉ/Ｏ Bus)是Ｉ/Ｏ总线
NIC(InterfaceCircuitry)是网络接口电路(网卡)
P/C(MicroprocessorandCache)是微处理器和高速缓存
VP(Vector Processor)向量处理器
SM(SharedMemory)是共享存储器。
LM(Local Memory)本地/局部存储
LD(LocalDisk)是本地磁盘
RC(RemoteCatch)远程高速缓存

在这里插入图片描述

并行计算机访存模型

概念

UMA(Uniform MemoryAccess)模型是均匀存储访问模型的简称,适于通用或分时应用。
- 对称多处理机SMP(SymmetricMultiprocessor):所有的处理器都能等同地访问所有Ｉ/Ｏ设备、能同样地运行执行程序(如操作系统内核和Ｉ/Ｏ服务程序等)时称为
- 非对称多处理机：只有一台或一组处理器(称为主处理器)，它能执行操作系统并能操纵Ｉ/Ｏ，而其余的处理器无Ｉ/Ｏ能力(称为从处理器)，只在主处理器的监控之下执行用户代码。
其特点是：
- 物理存储器被所有处理器均匀共享；
- 所有处理器访问任何存储单元取相同的时间(此即均匀存储访问名称的由来)；
- 每台处理器可带私有高速缓存；
- 外围设备也可以一定形式共享。这种系统由于高度共享资源而称为紧耦合系统(TightlyCoupledSystem)。

在这里插入图片描述

NUMA(Nonuniform MemoryAccess)模型是非均匀存储访问模型的简称。特点是：
- 被共享的存储器在物理上是分布在所有的处理器中的，其所有本地存储器的集合就组成了全局地址空间；
- 处理器访问存储器的时间是不一样的：访问本地存储器ＬＭ或群内共享存储器CSM较快，而访问外地的存储器或全局共享存储器 GSM较慢(此即非均匀存储访问名称的由来)；
- 每台处理器照例可带私有高速缓存，且外设也可以某种形式共享。

在这里插入图片描述

COMA(Cach-OnlyMemoryAccess)模型是全高速缓存存储访问的简称。是 NUMA 的一种特例。其特点是：
- 各处理器节点中没有存储层次结构，全部高速缓存组成了全局地址空间；
- 利用分布的高速缓存目录D进行远程高速缓存的访问；
- COMA中的高速缓存容量一般都大于2级高速缓存容量；
- 使用COMA时，数据开始时可任意分配，因为在运行时它最终会被迁移到要用到它的地方。

在这里插入图片描述

CC-NUMA(Coherent-CacheNonuniform MemoryAccess)模型是高速缓存一致性非均匀存储访问模型的简称。它实际上是将一些SMP机器作为一个单节点而彼此连接起来所形成的一个较大的系统。其特点是：
- 绝大多数商用 CC-NUMA多处理机系统都使用基于目录的高速缓存一致性协议；
- 它在保留SMP结构易于编程的优点的同时，也改善了常规 SMP 的可扩放性问题；
- CC-NUMA 实际上是一个分布共享存储的DSM多处理机系统；
- 它最显着的优点是程序员无需明确地在节点上分配数据，系统的硬件和软件开始时自动在各节点分配数据，在运行期间，高速缓存一致性硬件会自动地将数据移至要用到它的地方。

在这里插入图片描述

NORMA(No-RemoteMemoryAccess)模型是非远程存储访问模型的简称。在一个分布存储的多计算机系统中，如果所有的存储器都是私有的、仅能由其处理器所访问时就称为 NORMA。系统由多个计算节点通过消息传递互连网络连接而成，每个节点都是一台由处理器、本地存储器和/或Ｉ/Ｏ外设组成的自治计算机。NORMA的特点是：
- 所有存储器均是私有的；
- 绝大多数 NUMA都不支持远程存储器的访问；
- 在DSM中，NORMA 就消失了。

小结

物理上分布的存储器从编程的观点看可以是共享的或非共享的

共享存储结构(多处理机)可同时支持共享存储和消息传递编程模型
共享存储的编程模型可同时执行于共享存储结构和分布式存储结构(多计算机)上。

在这里插入图片描述

当代并行计算机系统介绍

共享存储的对称多处理机SMP

SMP系统属于UMA(Uniform MemoryAccess)机器
NUMA(Nonuniform MemoryAccess)机器是SMP系统的自然推广
CC-NUMA (Coherent-CacheNUMA)实际上是将一些SMP作为单节点而彼此连接起来所构成的分布共享存储系统

结构特性：

对称性：系统中任何处理器均可访问任何存储单元和Ｉ/Ｏ设备；
单地址空间：单地址空间有很多好处，例如因为只有一个OS和DB等副本驻留在共享存储器中，所以OS可按工作负载情况在多个处理器上调度进程从而易达到动态负载平衡，又如因为所有数据均驻留在同一共享存储器中，所以用户不必担心数据的分配和再分配；
高速缓存及其一致性：多级高速缓存可支持数据的局部性，而其一致性可由硬件来增强；
低通信延迟：处理器间的通信可用简单的读/写指令来完成(而多计算机系统中处理器间的通信要用多条指令才能完成发送/接收操作)。目前大多数商用SMP系统都是基于总线连接的，占了并行计算机很大的市场

问题：

欠可靠：总线、存储器或OS失效均会造成系统崩溃，这是SMP系统的最大问题；
可观的延迟：尽管SMP比MPP通信延迟要小，但相对处理器速度而言仍相当可观(竞争会加剧延迟)，一般为数百个处理器周期，长者可达数千个指令周期；
慢速增加的带宽：有人估计，主存和磁盘容量每3年增加4倍，而SMP存储器总线带宽每3年只增加2倍，Ｉ/Ｏ总线带宽增加速率则更慢，这样存储器带宽的增长跟不上处理器速度或存储容量的步伐；
不可扩放性：总线是不可扩放的，这就限制最大的处理器数一般不能超过10。为了增大系统的规模，可改用交叉开关连接，或改用CC-NUMA或机群结构。

分布存储的大规模并行处理机 MPP

MPP公共结构

所有的 MPP均使用物理上分布的存储器，且使用分布的Ｉ/Ｏ也渐渐变多。节点间通过高速网络HSN(HighSpeedNetwork)相连。每个节点包括：

一个或多个处理器和高速缓存(Ｐ/Ｃ)
一个局部存储
有或没有磁盘和网络接口电路 NIC(NetworkInterfaceCircuitry)，它们均连向本地互连网络(早期多为总线而近期多为交叉开关)

MPP设计问题

可扩放性：MPP著名特性就是系统能扩展至成千上万个处理器，而存储器和Ｉ/Ｏ的容量及带宽亦能按比例的增加。为此，采用物理上分布的存储器结构，它能提供比集中存储器结构更高的总计存储带宽，因此有潜在的高可扩放性；
- 要平衡处理能力与存储和Ｉ/Ｏ的能力，因为存储器和Ｉ/Ｏ子系统的速度不可能与处理器成比例地提高；
- 要平衡计算能力与交互能力，因为进程/线程的管理、通信与同步等都相当费时间。
系统成本：因为 MPP系统中包含大量的元件，为了保证系统的低成本应确保每个元件的低成本。为此，
- 应采用现有的商用 CMOS微处理器
- 要采用相对稳定的结构，
- 要使用物理上分布的存储器结构，它比同规模机器的中央(集中)存储器结构要便宜；
- 要采用SMP节点方式以削减互连规模。
- 设计者必须加入专门硬件以扩大物理地址空间规模
通用性和可用性：
- MPP要支持异步 MIMD模式；
- 要支持流行的标准编程模式；
- 诸节点应能按大、小作业要求进行不同的组合以支持交互和批处理模式；
- 互连拓扑应对用户透明，看到的是一组全连接的节点；
- MPP应在不同层次上支持单一系统映像SSI(Single-SystemImage)
- MPP必须使用高可用性的技术。
通信要求：MPP和 COW 的关键差别是节点间的通信，COW 使用标准的LAN，而 MPP使用高速、专用高带宽、低延迟的互连网络，无疑在通信方面优于 COW。
存储器和Ｉ/Ｏ能力：因为 MPP是可扩放系统，所以就要求非常大的总计存储器和Ｉ/Ｏ设备容量，目前Ｉ/Ｏ方面的进展仍落后于系统中的其余部分。

差别

MPP和 COW 的关键差别是节点间的通信，COW 使用标准的LAN，而 MPP使用高速、专用高带宽、低延迟的互连网络，无疑在通信方面优于 COW。

工作站机群COW

定义

工作站机群COW(ClusterofWorkstations)是实现并行计算的一种新主流技术，是属于分布式存储的 MIMD并行计算机结构，系由工作站和互连网络两部分组成。由于这种结构用于并行计算的主要资源是工作站，所以工作站机群的名称便由此产生。工作站机群COW 这一名称，在早期的研究阶段，也曾被称为工作站网络NOW(NetworkofWorkstations)。

从用户、程序员和系统管理员的角度看，COW 相当于单一并行系统，感觉不到多个工作站的实际存在；
从程序设计模式的角度看，它与 MPP一样可采用面向消息传递的SPMD(SingleProgramMultipleData)编程方式，即各个工作站均运行同一个程序，但分别加载不同的数据，从而可支持粗粒度的并行应用程序。

优势

投资风险小
编程方便
系统结构灵活
性能/价格比高
能充分利用分散的计算资源
可扩放性好

并行计算性能评测

名称	符号	含意	单位
机器规模	$n$	处理器的数目	无量纲
时钟速率	$f$	时钟周期长度的倒数	$M H z$
工作负载	$W$	计算操作的数目	$M f l o p$
顺序执行时间	$T_i$	程序在单处理机上的运行时间	$s (秒)$
并行执行时间	$T_n$	程序在并行机上的运行时间	$s (秒)$
速度	$R_n=W/T_n$	每秒百万次浮点运算	$M f l o p s$
加速	$S_n=T_1/T_n$	衡量并行机有多快	无量纲
效率	$En=S_n/n$	衡量处理器的利用率	无量纲
峰值速度	$R_{peak}=nR’_{peak}$	所有处理器峰值速度之积， $R'_{peak}$ 为一个处理器的峰值速度	$M f l o p s$
利用率	$U=R_n/R_{peak}$	可达速度与峰值速度之比	无量纲
通信延迟	$t_0$	传送0一字节或单字的时间	$\mu{s}$
渐近带宽	$r_\infty$	传送长消息通信速率	$M B / s$

工作负载

所谓工作负载(荷)，就是计算操作的数目，通常可用执行时间、所执行的指令数目和所完成的浮点运算数三个物理量来度量它。

执行时间：它可定义为在特定的计算机系统上的一个给定的应用所占用的总时间，系指应用程序从开始到结束所掠过时间(ElapsedTime)，它不只是CPU时间，还包括了访问存储器、磁盘、Ｉ/Ｏ通道的时间和 OS开销等。
浮点运算：对于大型科学与工程计算问题，使用所执行的浮点运算数目来表示工作负载是很自然的。对于程序中的其他类型的运算，可按如下经验规则折算成浮点运算(Flop)数：在运算表达式中的赋值操作、变址计算等均不单独考虑(即它们被折算成0Flop)；单独赋值操作、加法、减法、乘法、比较、数据类型转换等运算均各折算成1Flop；除法和开平方运算各折算成4Flop；正(余)弦、指数类运算各折算成８Flop；其他类运算，可按其复杂程度，参照上述经验数据进行折算之。
指令数目：对于任何给定的应用，它所执行的指令条数就可视为工作负载，常以百万条指令为计算单位，与其相应的速度单位就是MIPS(每秒百万条指令)。

并行执行时间

在无重叠操作的假定下，并行程序的执行时间 $T_n$ 为：
$T_n=T_{comput}+T_{paro}+T_{comm}$

Tcomput为计算时间
Tparo为并行开销时间
- 包括进程管理(如进程生成、结束和切换等)时间，组操作(如进程组的生成与消亡等)时间和进程查寻(如询问进程的标志、等级、组标志和组大小等)时间；
Tcomm为相互通信时间。
- 包括同步(如路障、锁、临界区、事件等)时间，通信(如点到点通信、整体通信、读/写共享变量等)时间和聚合操作(如归约、前缀运算等)时间。

存储器性能

存储器的层次结构

容量Ｃ：表示各层的物理存储器件能保存多少字节的数据；
延迟Ｌ：表示读取各层物理器件中一个字所需的时间；
带宽Ｂ：表示在1秒钟内各层的物理器件中能传送多少个字节。

在这里插入图片描述

存储器带宽的估算

公式

$带宽=操作的存储长度\times时钟频率$

较快的时钟频率和处理器中较高的并行操作，可获得较宽的带宽

例：RISC加法指令带宽估算

条件：字长64位(8字节)，时钟频率100MHz，单拍内可完成指令

指令流程：取2个字a,b，执行操作后送回寄存器，共涉及3个字(24字节)

$\begin{align}Speed&=Length\times{Frequency}\\&=(3\times8)\times(100\times10^6)\\&=2.4GB/s \end{align}$

三大定律

简称定义

是并行系统中处理器数；
W是问题规模(下文中也常叫作计算负载、工作负载，它定义为给定问题的总计算量)，
Ws 是应用程序中的串行分量，
Wp是W中可并行化部分(显然 Ws+Wp= W)；
Wo为额外开销
f是串行分量比例(f= Ws/Ｗ，Ws= W1)，
1-f为并行分量比例(显然 f+(1-f)=1)；
Ts=T1 为串行执行时间，
Tp 为并行执行时间；
S为加速(比)，
E为效率。
G(p)反映存储容量增加到p倍时工作负载的增加量

Amdahl定律 - 固定负载的加速公式

原公式

$S=\frac{W_s+W_p}{W_s+\frac{W_p}{p}}$

归一化的公式

将 $W_s+W_p$ 表示为 $f + (1 - f)$ 得：
$S=\frac{f+(1-f)}{f+\frac{1-f}{p}}=\frac{p}{1+f(p-1)}$

修正的公式

上并行加速不仅受限于程序的串行分量，而且也受并行程序运行时的额外开销影响
$\begin{align}S&=\frac{W_s+W_p}{W_s+\frac{W_p}{p}+W_o}\\&=\frac{W}{fW+\frac{W(1-f)}{p}+W_o}\\ &=\frac{p}{1+f(p-1)+\frac{W_op}{W}} \end{align}$

极限情况与条件

对于理想情况：当 $p\to\infty$ 时取极限

$S=\frac{1}{f}$

对于实际情况：当 $p\to\infty$ 时取极限

$S=\frac{1}{f+\frac{W_o}{W}}$

出发点

对于很多科学计算，实时性要求很高，即在此类应用中时间是个关键因素，而计算负载是固定不变的。为此在一定的计算负载下，为达到实时性可利用增加处理器数来提高计算速度；
因为固定的计算负载是可分布在多个处理器上的，这样增加了处理器就加快了执行速度，从而达到了加速的目的。

含义

它意味着随着处理器数目的无限增大，并行系统所能达到的加速之上限为 $\frac{1}{f}$

在这里插入图片描述

Gustafson加速定律

原公式

$\begin{align} S'&=\frac{W_s+pW_p}{W_s+p\times\frac{W_p}{p}}\\ &=\frac{W_s+pW_p}{W_s+W_p} \end{align}$

归一化公式

$\begin{align} S'&=f+p(1-f)\\ &=p+f(1-p)\\ &=p-f(p-1) \end{align}$

修正的公式

$\begin{align} S'&=\frac{W_s+pW_p}{W_s+W_p+W_o}\\ &=\frac{f+p(1-f)}{1+\frac{W_o}{W}} \end{align}$

极限情况与条件

当ｐ充分大时，Ｓ′与ｐ几乎成线性关系，其斜率为1-ｆ。

出发点

对于很多大型计算，精度要求很高，即在此类应用中精度是个关键因素，而计算时间是固定不变的。此时为了提高精度，必须加大计算量，相应地亦必须增多处理器数才能维持时间不变；
除非学术研究，在实际应用中没有必要固定工作负载而使计算程序运行在不同数目的处理器上，增多处理器必须相应地增大问题规模才有实际意义。

含义

意味着随着处理器数目的增加，加速几乎与处理器数成比例的线性增加，串行比例ｆ不再是程序的瓶颈。

注意，Wo是p的函数，它可能随ｐ增大、减小或不变。一般化的 Gustafson 定律欲达到线性加速必须使Ｗｏ随ｐ减小，但这常常是困难的。

在这里插入图片描述

Sun和Ni定律 - 存储受限的加速定律

原公式

$S''=\frac{fW+(1-f)G(p)W}{fW+(1-f)G(p)\frac{W}{p}}$

归一化公式

$S''=\frac{f+(1-f)G(p)}{f+(1-f)\frac{G(p)}{{p}}}$

修正的公式

$\begin{align} S''&=\frac{fW+(1-f)WG(p)}{fW+(1-f)G(p)\frac{W}{p}+W_o}\\ &=\frac{f+(1-f)G(p)}{f+(1-f)\frac{G(p)}{p}+\frac{W_o}{W}} \end{align}$

极限情况与条件

当 $G (p) = 1$ 时：变为 $\frac{1}{f+\frac{(1-f)}{p}}$ ( Amdahl加速定律)
当 $G (p) = p$ 时：变为 $f + p (1 - f)$ (Gustafson加速定律；当Ｇ(ｐ)＞ｐ时，它相应于计算负载比存储要求增加得快)

基本思想

其基本思想是只要存储空间许可，应尽量增大问题规模以产生更好或更精确的解(此时可能使执行时间略有增加)。换句话说，假若有足够的存储容量，并且规模可扩放的问题满足 Gustafson定律规定的时间要求，那么就有可能进一步增大问题规模求得更好或更精确的解。，它相应于计算负载比存储要求增加得快，此时Sun和Ni加速均比 Amdahl加速和 Gustafson加速为高。

在这里插入图片描述

并行算法的设计基础

并行算法基本概念

并行算法(ParallelAlgorithm)是一些可同时执行的诸进程的集合，这些进程互相作用和协调动作从而达到给定问题的求解。
- 数值计算是指基于代数关系运算的一类诸如矩阵运算、多项式求值、求解线性方程组等数值计算问题。求解数值计算问题的算法称为数值算法(NumericalAlgorithm)。
- 非数值计算是指基于比较关系运算的一类诸如排序、选择、搜索、匹配等符号处理问题。求解非数值计算问题的算法称为非数值算法(Non_NumericalAlgorithm)。
- 同步算法(SynchronizedAlgorithm)是指算法的诸进程的执行必须相互等待的一类并行算法。
- 异步算法(ASynchronizedAlgorithm)是指算法的诸进程的执行不必相互等待的一类并行算法。
- 分布算法(DistributedAlgorithm)是指由通信链路连接的多个场点(Site)或节点，协同完成问题求解的一类并行算法。
  - 在局网环境下进行的计算称为分布计算(Distributed Computing)。
  - 把工作站机群 COW(ClusterofWorkstations)环境下进行的计算称为网络计算(NetworkComputing)。
  - 把基于Internet的计算则称为元计算(MetaComputing)。
- 确定算法(DeterministicAlgorithm)是指算法的每一步都能明确地指明下一步应该如何行进的一种算法。
- 随机算法(RandomizedAlgorithm)是指算法的每一步，随机地从指定范围内选取若干参数，由其来确定算法的下一步走向的一种算法。