并行计算-CSDN博客

本文链接：https://blog.csdn.net/ation_work/article/details/103627190

一、产生的背景

曾经，几乎所有的处理器都是以冯诺依曼计算机架构为基础的。该系统架构简单来说就是处理器从存储器中不断取指，解码，执行。
但如今这种系统架构遇到了瓶颈：内存的读写速度跟不上 CPU 时钟频率。具有此特征的系统被称为内存受限型系统，目前的绝大多数计算机系统都属于此类型。
为了解决此问题，传统解决方案是使用缓存技术。通过给 CPU 设立多级缓存，能大大地降低存储系统的压力：
然而随着缓存容量的增大，使用更大缓存所带来的收益增速会迅速下降，这也就意味着我们要寻找新的办法了。

.对 GPU 编程技术发展具有启发意义的几件事：

1. 70年代末期，克雷系列超级计算机研制成功 (克雷1当年耗资800万美元)。

此类计算机采用若干内存条的共享内存结构，即这些内存条可以与多个处理器相连接，从而发展成今天的对称多处理器系统 (SMD)。

克雷2是向量机 - 一个操作处理多个操作数。

如今的 GPU 设备的核心也正是向量处理器。

2. 80年代初期，一家公司设计并研制了一种被称为连接机的计算机系统。

该系统具有16个 CPU 核，采用的是标准的单指令多数据 (SIMD) 并行处理。连接机通过这种设计能够消除多余的访存操作，并将内存读写周期变为原来的 1/16 。

3. CELL 处理器的发明

这类处理器很有意思，其架构大致如下图所示：

在此结构中，一个 PPC 处理器作为监管处理器，与大量的 SPE流处理器相连通，组成了一个工作流水线。

对于一个图形处理过程来说，某个 SPE 可负责提取数据，另一个 SPE 负责变换，再另一个负责存回。这样可构成一道完完整整的流水线，大大提高了处理速度。

顺便提一句，2010年超级计算机排名第三的计算机就是基于这种设计理念实现的，占地面积达560平方米，耗资 1.25 亿美元。

4.多点计算模型

集群计算是指通过将多个性能一般的计算机组成一个运算网络，达到高性能计算的目的。这是一种典型的多点计算模型。而 GPU 的本质，也同样是多点计算模型。

其相对于当今比较火的Hadoop/Spark集群来说：“点”由单个计算机变成了单个SM (流处理器簇)，通过网络互连变成了通过显存互连 (多点计算模型中点之间的通信永远是要考虑的重要问题)。

5.GPU 解决方案

随着 CPU "功耗墙" 问题的产生，GPU 解决方案开始正式走上舞台。

GPU 特别适合用于并行计算浮点类型的情况

对于逻辑更灵活复杂的串行程序，GPU 执行起来则远不如 CPU 高效 (没有分支预测等高级机制)。

另外，GPU 的应用早已不局限于图像处理。事实上 CUDA 目前的高端板卡 Tesla 系列就是专门用来进行科学计算的，它们连 VGA 接口都没。

6.主流 GPU 编程接口

1. CUDA

是英伟达公司推出的，专门针对 N 卡进行 GPU 编程的接口。文档资料很齐全，几乎适用于所有 N 卡。

本专栏讲述的 GPU 编程技术均基于此接口。

2. Open CL

开源的 GPU 编程接口，使用范围最广，几乎适用于所有的显卡。

但相对 CUDA，其掌握较难一些，建议先学 CUDA，在此基础上进行 Open CL 的学习则会非常简单轻松。

3. DirectCompute

微软开发出来的 GPU 编程接口。功能很强大，学习起来也最为简单，但只能用于 Windows 系统，在许多高端服务器都是 UNIX 系统无法使用。

总结，这几种接口各有优劣，需要根据实际情况选用。但它们使用起来方法非常相近，掌握了其中一种再学习其他两种会很容易。

二：从 GPU 的角度理解并行计算

1.并行计算中需要考虑的三个重要问题

1. 同步问题

在操作系统原理的相关课程中我们学习过进程间的死锁问题，以及由于资源共享带来的临界资源问题等，这里不做累述。

　　2. 并发度

有一些问题属于 “易并行” 问题：如矩阵乘法。在这类型问题中，各个运算单元输出的结果是相互独立的，这类问题能够得到很轻松的解决 (通常甚至调用几个类库就能搞定问题)。

然而，若各个运算单元之间有依赖关系，那问题就复杂了。在 CUDA 中，块内的通信通过共享内存来实现，而块间的通信，则只能通过全局内存。

CUDA 并行编程架构可以用网格 (GRID) 来形容：一个网格好比一只军队。网格被分成好多个块，这些块好比军队的每个部门 (后勤部，指挥部，通信部等)。每个块又分成好多个线程束，这些线程束好比部门内部的小分队，下图可帮助理解：

3. 局部性

在操作系统原理中，对局部性做过重点介绍，简单来说就是将之前访问过的数据 (时间局部性) 和之前访问过的数据的附近数据 (空间局部性) 保存在缓存中。

在 GPU 编程中，局部性也是非常重要的，这体现在要计算的数据应当在计算之前尽可能的一次性的送进显存，在迭代的过程中一定要尽可能减少数据在内存和显存之间的传输，实际项目中发现这点十分重要的。

对于 GPU 编程来说，需要程序猿自己去管理内存，或者换句话来说，自己实现局部性。

2.并行计算的两种类型

1. 基于任务的并行处理

这种并行模式将计算任务拆分成若干个小的但不同的任务，如有的运算单元负责取数，有的运算单元负责计算，有的负责...... 这样一个大的任务可以组成一道流水线。

需要注意的是流水线的效率瓶颈在于其中效率最低的那个计算单元。

　　2. 基于数据的并行处理

这种并行模式将数据分解为多个部分，让多个运算单元分别去计算这些小块的数据，最后再将其汇总起来。

一般来说，CPU 的多线程编程偏向于第一种并行模式，GPU 并行编程模式则偏向于第二种。

3.常见的并行优化对象

1. 循环

这也是最常见的一种模式，让每个线程处理循环中的一个或一组数据。

这种类型的优化一定要小心各个运算单元，以及每个运算单元何其自身上一次迭代结果的依赖性。

2. 派生/汇集模式

该模式下大多数是串行代码，但代码中的某一段可以并行处理。

典型的情况就是某个输入队列当串行处理到某个时刻，需要对其中不同部分进行不同处理，这样就可以划分成多个计算单元对改队列进行处理 (也即派生)，最后再将其汇总 (也即汇集)。

这种模式常用于并发事件事先不定的情况，具有 “动态并行性”。

3. 分条/分块模式

对于特别庞大的数据 (如气候模型)，可以将数据分为过个块来进行并行计算。

4. 分而治之

绝大多数的递归算法，比如快速排序，都可以转换为迭代模型，而迭代模型又能映射到 GPU 编程模型上。

特别说明：虽然费米架构和开普勒架构的 GPU 都支持缓冲栈，能够直接实现递归模型到 GPU 并行模型的转换。但为了程序的效率，在开发时间允许的情况下，我们最好还是先将其转换为迭代模型。

GPU 并行编程的核心在于线程，一个线程就是程序中的一个单一指令流，一个个线程组合在一起就构成了并行计算网格，成为了并行的程序，下图展示了多核 CPU 与 GPU 的计算网格：

我们前面已经大概的介绍了CUDA执行模型的大概过程，包括线程网格，线程束，线程间的关系，以及硬件的大概结构，例如SM的大概结构，而对于硬件来说，CUDA执行的实质是线程束的执行，因为硬件根本不知道每个块谁是谁，也不知道先后顺序，硬件(SM)只知道按照机器码跑，而给他什么，先后顺序，这个就是硬件功能设计的直接体现了。
从外表来看，CUDA执行所有的线程，并行的，没有先后次序的，但实际上硬件资源是有限的，不可能同时执行百万个线程，所以从硬件角度来看，物理层面上执行的也只是线程的一部分，而每次执行的这一部分，就是我们前面提到的线程束。

线程束和线程块

线程束是SM中基本的执行单元，当一个网格被启动（网格被启动，等价于一个内核被启动，每个内核对应于自己的网格），网格中包含线程块，线程块被分配到某一个SM上以后，将分为多个线程束，每个线程束一般是32个线程（目前的GPU都是32个线程，但不保证未来还是32个）在一个线程束中，所有线程按照单指令多线程SIMT的方式执行，每一步执行相同的指令，但是处理的数据为私有的数据，下图反应的就是逻辑，实际，和硬件的图形化

线程块是个逻辑产物，因为在计算机里，内存总是一维线性存在的，所以执行起来也是一维的访问线程块中的线程，但是我们在写程序的时候却可以以二维三维的方式进行，原因是方便我们写程序，比如处理图像或者三维的数据，三维块就会变得很直接，很方便。
在块中，每个线程有唯一的编号（可能是个三维的编号），threadIdx。
网格中，每个线程块也有唯一的编号(可能是个三维的编号)，blockIdx
那么每个线程就有在网格中的唯一编号。
当一个线程块中有128个线程的时候，其分配到SM上执行时，会分成4个块：

warp0: thread  0,........thread31
warp1: thread 32,........thread63
warp2: thread 64,........thread95
warp3: thread 96,........thread127

该图表示，计算网格由多个流处理器构成，每个流处理器又包含 n 多块。

下面进一步对 GPU 计算网格中的一些概念做细致分析。

1. 线程

线程是 GPU 运算中的最小执行单元，线程能够完成一个最小的逻辑意义操作。

2. 线程束

线程束是 GPU 中的基本执行单元。GPU 是一组 SIMD 处理器的集合，因此每个线程束中的线程是同时执行的。这个概念是为了隐藏对显存进行读写带来的延迟所引入的。

目前英伟达公司的显卡此值为 32，不可改动，也不应该对其进行改动。

3. 线程块

一个线程块包含多个线程束，在一个线程块内的所有线程，都可以使用共享内存来进行通信、同步。但一个线程块能拥有的最大线程/线程束，和显卡型号有关。

4. 流多处理器

流多处理器就相当于 CPU 中的核，负责线程束的执行。同一时刻只能有一个线程束执行。

5. 流处理器

流处理器只负责执行线程，结构相对简单。

GPU 和 CPU 在并行计算方面的不同

1. 任务数量

CPU 适合比较少量的任务，而 GPU 则适合做大量的任务。

2. 任务复杂度

CPU 适合逻辑比较复杂的任务，而 GPU 则适合处理逻辑上相对简单的任务 (可用比较少的语句描述)。

3. 线程支持方式

由于 CPU 中线程的寄存器组是公用的，因此CPU 在切换线程的时候，会将线程的寄存器内容保存在 RAM 中，当线程再次启动的时候则会从 RAM 中恢复数据到寄存器。

而 GPU 中的各个线程则各自拥有其自身的寄存器组，因此其切换速度会快上不少。

当然，对于单个的线程处理能力来说，CPU 更强。

4. 处理器分配原则

CPU 一般是基于时间片轮转调度原则，每个线程固定地执行单个时间片；而 GPU 的策略则是在线程阻塞的时候迅速换入换出。

5. 数据吞吐量

GPU 中的每个流处理器就相当于一个 CPU 核，一个 GPU 一般具有 16 个流处理器，而且每个流处理器一次能计算 32 个数。

CUDA是用于GPU计算的开发环境，它是一个全新的软硬件架构，可以将GPU视为一个并行数据计算的设备，对所进行的计算进行分配和管理。在CUDA的架构中，这些计算不再像过去所谓的GPGPU架构那样必须将计算映射到图形API(OpenGL和Direct 3D)中，因此对于开发者来说，CUDA的开发门槛大大降低了。CUDA的GPU编程语言基于标准的C语言，因此任何有C语言基础的用户都很容易地开发CUDA的应用程序。