Parallel Computing - 一文讲懂并行计算

疯狂的码泰君

于 2024-03-02 10:58:57 发布

阅读量2.3k

点赞数 12

分类专栏：并行计算文章标签：并行计算

本文链接：https://blog.csdn.net/qq_46264636/article/details/136411352

版权

在本章中，我们将回顾一些有关并行计算的概念。但更加强调 GPU。

Throughput/Latency

在讨论性能之前，我们先回顾一下一些概念。

吞吐量：单位时间内计算任务的数量。即：一分钟内 1000 笔信用卡付款。
延迟：调用操作和获得响应之间的延迟。即：处理信用卡交易所需的最长时间为 25 毫秒。
在优化性能时，一个因素（例如吞吐量）的改进可能会导致另一因素（例如延迟）的恶化。

Serial Computing

这是老办法，我们遇到一个问题，我们把它们分解成一个个小块，然后一个接一个地解决。
在这里插入图片描述

Parallel Computing

从最简单的意义上来说，并行计算是同时使用多个计算资源来解决计算问题。
在这里插入图片描述

Types of parallel computers

根据弗林分类法，并行计算机有 4 种不同的分类方法。
下面是一些经典的例子

SISD：非常旧的计算机（PDP1）
MIMD：超级计算机
SIMD：Intel 处理器、Nvidia Gpus
MISD：确实很少见。
对于 GPU，它们通常是 SIMD 类型的处理器。不同的处理单元执行相同的指令，但在共享内存的不同部分。

Simple 4-width SIMD

下面我们有一个 4 宽度的 SIMD。这里的所有处理器都在同时执行“add”指令。
在这里插入图片描述当您听说 GPU 有 5000 个核心时，请不要被愚弄，它可能只是说它有 5000 个 ALU（算术逻辑单元）。 GPU 可同时执行的最大任务数通常在 Nvidia 上称为“warp size”，在 AMD 上称为“wavefront”，通常是按块/网格组织的 32 宽 SIMD 单元。

可能发生的一个有趣的问题是，如果您有一条分支（if）指令，并且每个处理元素决定不同的事情。如果发生这种情况，您将受到处理处罚。这种效应称为发散。为了解决这个问题，您必须尝试尽量减少波动前（cuda 中的wrap）上分支指令的使用。
如果您需要这种分支分配，您可以使用 opencl 中的“select”来编译为单个指令（原子），这样就不会发生发散问题。
在这里插入图片描述

Amdahl’s law

Amdahl’s Law指出潜在的程序加速（理论延迟）由可以并行化的代码 p 的比例定义：
在这里插入图片描述

S ：整个任务执行延迟的理论加速
p: 可以并行化的代码的一部分。
处理器数量
从该定律可以得到：加速受到不可并行工作部分的限制，即使使用无限数量的处理器，速度也不会提高，因为串行部分会受到限制。

程序的总执行时间T分为两类：
执行不可并行串行工作所花费的时间
进行可并行工作所花费的时间
这里还缺少一些重要的东西。阿姆达尔定律没有考虑内存延迟等其他因素。

Types of parallelism

Data Parallel Model

在此模型上，共享内存对所有节点都是可见的，但每个节点都处理该共享内存的部分内容。这就是我们通常使用 GPU 要做的事情
在这里插入图片描述
数据并行方法的主要特点是编程相对简单，因为多个处理器都运行相同的程序，并且所有处理器大约在同一时间完成其任务。当每个处理器正在处理的数据之间的依赖性最小时，此方法是有效的。例如，向量加法可以从这种方法中受益匪浅。