CUDA学习——Chapter 2（4）内存空间布局对核函数性能的影响（3）

最新推荐文章于 2019-05-19 17:45:40 发布

KarK_Li

最新推荐文章于 2019-05-19 17:45:40 发布

阅读量304

点赞数 1

分类专栏： CUDA 文章标签： CUDA C 并行计算

本文链接：https://blog.csdn.net/weixin_40427089/article/details/86701839

版权

本文探讨了在CUDA编程中，使用二维网格和一维块对矩阵求和的影响。通过实例展示了如何构建这种结构，并分析了不同内存空间布局对核函数性能的效应，指出传统布局可能并非最优，改变内存布局可以提升性能。实验结果显示，不佳的内存布局可能导致GPU性能低于CPU。

摘要由CSDN通过智能技术生成

第二章

3.使用二维网格和一维块对矩阵求和

那么刚才使用了一维网格一维块的结构来对矩阵进行求和，现在我们来尝试着用二维网格一维块的结构来进行矩阵求和的运算。
二维网格一维块的结构如下：
二维网格一维块的结构示意图
那么也就是一个线程处理一个对应的矩阵元素。
线程的内存索引依然满足：idx=iy*nx+ix;

依葫芦画瓢嘛，我们可以写出使用二维网格一维块的核函数

__global__ void sumMatrixOnGPUMix(float *MatA,float *MatB,float *MatC,int nx,int ny)
{
    unsigned int ix=threadIdx.x+blockIdx.x*blockDim.x;
    unsigned int iy=blockIdx.y;
    unsigned int idx=iy*nx+ix;
    if(ix<nx&&iy<ny)
        MatC[idx]=MatA[idx]+MatB[idx];
}

因为线程本身没有y方向上的量，所以iy并不会加上threadIdx.y，而块是一维的，所以blockDim.y缺省为1，可以省略。

设置块和网格的大小

dim3 block(32);//x方向上有32个线程的块
dim3 grid((nx+block.x-1)/block.x,ny);//x方向上创建可以容纳nx个线程的k个块，其中k=nx/block.x的向上取整。y方向上创

最低0.47元/天解锁文章

KarK_Li

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录