CUDA卷积计算及其优化——以一维卷积为例

最新推荐文章于 2025-03-12 10:48:31 发布

陈城南

最新推荐文章于 2025-03-12 10:48:31 发布

阅读量4.2k

点赞数 4

分类专栏： CUDA C

本文链接：https://blog.csdn.net/qq_40491305/article/details/116236956

版权

CUDA C 专栏收录该内容

7 篇文章

订阅专栏

CUDA 卷积计算及其优化——以一维卷积为例

《大规模并行处理器编程实战》学习，其他章节关注专栏 CUDA C

初次接触 CUDA C 编程不建议直接阅读，友情链接：

建议阅读：在卷积优化前，熟悉核函数的组织形式有利于更好的位置映射-CUDA编程入门（一）：以图片运算看线程的组织和核函数的使用

纯C++/CUDA 编写的卷积神经网络实现项目

对于输入数据为N[Width]，卷积核大小为M[Mask_Width]的卷积运算，进行不同程度的优化（这里的卷积指滤波/内积，而不需要旋转），输出为P[Width]。

1.常规的一维卷积

常规的一维卷积比较简单，线程数为Width，每个线程负责一个输出值得Mask_Width宽度的卷积运算，即：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-YZ69hRG9-1619598532835)(CUDA卷积计算及其优化_files/c2a1ebeb-2958-486d-97d7-b0c93cbe521a.jpg)]

2.利用共享存储器的卷积优化（使用光环元素的分块一维卷积）

由于直接卷积时，相邻线程在数据读取时都需要访问N，N在全局存储器上，这样会造成不断的访问全局存储器，因此可以利用共享存储器进行优化，先将数据放在共享存储器上，再不断的访问共享存储器，提高效率。
shared 变量声明的共享存储器对线程块是共享的，因此在使用分块卷积时才有优化的效果。可对于每一线程块先加载其整个线程块中的线程用到的数据N到共享存储器，然后再利用共享存储器进行计算，以减少线程块中线程对全局存储器的不断访问。
假如卷积核长度为5，数据长度为16，则分块卷积时，各个块内使用到的数据N如下：
在这里插入图片描述

分块0中的空元素称为幽灵元素，分块0中的2,3被分块1重复使用，分块1中的4,5同样被分块0使用，这些被多个块重复使用的元素称为光环元素/边缘元素。其余元素称为内部元素。
对于每个分块，建立一个共享存储器，将该分块用到的元素都放进去：
在这里插入图片描述

内部元素的加载比较简单，其映射与前面直接读取是一致的。对于光环元素的加载，采用不同的方式。如上图，分3步对共享存储器进行加载，n表示MASK_Width/2，即光环元素的长度：

第一步，利用线程块中后n个线程加载前面的光环元素（n个）。为什么要用后面的加载前面的，如上图所示，在分块1中，6,7的位置与分块0中2,3的位置是一致的，因此只需要在利用threadidx和blockidx计算N中的对应位置时将blockidx-1，即可从对6,7的映射变到对2,3的映射，这样更容易计算前n个光环元素在N中的位置，具体如下：
第二步，加载内部元素
第三步，加载后n个光环元素，同样利用前n个块中线程进行加载：