CUDA学习笔记（LESSON1/2）——架构、通信模式与GPU硬件

最新推荐文章于 2021-12-23 16:33:39 发布

Veropatrinica

最新推荐文章于 2021-12-23 16:33:39 发布

阅读量1.1k

点赞数 1

分类专栏： CUDA 文章标签： GPU CUDA编程并行计算 thread kernel

本文链接：https://blog.csdn.net/shanwenkang/article/details/82759797

版权

CUDA 专栏收录该内容

6 篇文章 5 订阅

订阅专栏

最近在看视频拼接的代码，师兄说要用CUDA加速，于是开始学习CUDA编程，课程链接：UdacityCS344

CUDA系列笔记

CUDA学习笔记（LESSON1/2）——架构、通信模式与GPU硬件

CUDA学习笔记（LESSON3）——GPU基本算法（Part I）

CUDA学习笔记（LESSON4）——GPU基本算法（Part II）

CUDA学习笔记（LESSON5）——GPU优化

CUDA学习笔记（LESSON7）——常用优化策略&动态并行化

CUDA线程架构

CUDA架构由Grid、Block、Thread组成。

threadIdx代表一个block内线程索引值，在不同线程内该索引值都不同，最多存在三维，用.x、.y、.z表示

blockDim代表一个block内的线程总数，最多存在三维

blockIdx代表一个grid内块的索引值

gridDim代表一个grid内的块总数

CUDA程序架构

下图展示了CUDA程序的架构，我们可以同时对CPU与GPU进行操纵，我们把CPU叫做Host，GPU叫做Device，我们在GPU上运行相同的串行程序，我们把这个程序叫做kernel。另外CPU与GPU不共用内存。

通信模式

通信模式指的是kernel（内核程序）中输入与输出之间的关系，该关系分为四种：map（映射）、gather（收集）、scatter（散射）、stencil（模板）、transpose（转置）

map

map描述的是输出与输入之间一对一的映射关系

gather

gather描述的是一个输出由多个输入进行运算得到。我们把相邻thread分配给相邻输出元素，由它们决定每个输出元素由哪些输入元素计算得到。

scatter

scatter描述的是一个输入参与多个输出的运算。我们把相邻thread分配给相邻输入元素，由它们决定每个输入元素分配给哪些输出元素。

stencil

stencil是一种模板，代表输出由相邻元素以一种固定的方式合成。gather就是一种stencil。需要注意的是stencil与gather不同的是stencil一定是每一个输出都由相同的输入模式确定，而gather则不一定要求输入以相同的模式合成输出。例如如下代码的下面一行：

由于有判断条件，因此不是所有输出都执行相同的操作，因此这种情况属于gather，而不是stencil

transpose

转置操作实际上就是输入序列的重排

GPU硬件与内存模型

GPU功能

当我们写完程序以后，GPU的工作就是把一个kernel内不同block分配给不同的SM（流处理器），只有当SM执行完其内所有block中的所有线程后，GPU才会给它分配新的block。用户无法操控哪个block分配给哪个SM，也不能操控哪个block先执行。但是GPU可以保证一个block内的所有thread是同时运行的，也可以确定当下一个kernel启动时，前一个kernel内的所有线程一定运行完毕。

线程同步

在对global memory操作的时候我们经常需要考虑的一个问题就是线程同步问题。当多个线程需要对同一个内存进行读写的时候，我们就需要用到synchronize（同步）的技术，其中一个重要的概念那就是barrier。barrier指程序中的一个节点，当一个block内所有thread到达这的时候就会暂停运行，直到所有thread都到达这一点，各个线程才会继续运行。而这个过程也就是所谓的线程同步。而我们之前谈到的不同kernel之间实际上存在隐式barrier来保证一个kernel所有thread运行完成以后才开启下一个kernel

内存模型

GPU的内存分为三个部分，local memory、shared memory与global memory。local memory相当于局部变量，只在本线程内可以访问，shared memory只在一个block内可以访问，而global memory相当于全局变量，在所有线程中都可以对其访问。而相应带来的结果是访问的速度有所不同，最快的是local memory，其次是shared memory，最慢是global memory，我们在做并行运算的时候希望能够让花在计算上的时间达到最大，而从内存读写的时间降到最低，因此，我们经常会把需要经常读写的数据从global memory中转移到shared memory中，这样能够大大的提高程序的效率。