【参加CUDA线上训练营】共享内存实例1：矩阵转置实现及其优化②

外卖猿

已于 2023-06-29 18:59:14 修改

阅读量641

点赞数 1

分类专栏： cuda开发文章标签： cuda 矩阵转置 shared memory bank conflict

于 2023-02-12 17:42:43 首次发布

本文链接：https://blog.csdn.net/WANGWUSHAN/article/details/128792714

版权

cuda开发专栏收录该内容

11 篇文章 0 订阅

订阅专栏

【参加CUDA线上训练营】共享内存实例1：矩阵转置实现及其优化②

1.不使用Shared Memory
2.使用Shared Memory
3.使用Shared Memory，并加入No Bank Conflicts
4.效果对比
参考文献

本文参考Nvidia官方blog[An Efficient Matrix Transpose in CUDA C/C++及其对应的github代码transpose.cu学习下共享内存(Shared Memory)的使用，感受下其加速效果。

使用的共享内存大小为32*32的tile，一个block中定义的线程数32*8。这就意味着需要循环4次才能对tile进行一次读写操作。

  const int TILE_DIM = 32;   
  const int BLOCK_ROWS = 8;
  dim3 dimGrid(nx/TILE_DIM, ny/TILE_DIM, 1); //设置block个数
  dim3 dimBlock(TILE_DIM, BLOCK_ROWS, 1);//设置block中的线程数位32*8

1.不使用Shared Memory

__global__ void transposeNaive(float *odata, const float *idata)
{
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j+= BLOCK_ROWS)
    odata[x*width + (y+j)] = idata[(y+j)*width + x];
}

可以看出程序的工作主要是将y维度8线程，分四次，赋值给转置后的矩阵。
在这里插入图片描述

2.使用Shared Memory

__global__ void transposeCoalesced(float *odata, const float *idata)
{
  __shared__ float tile[TILE_DIM][TILE_DIM];
    
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     tile[threadIdx.y+j][threadIdx.x] = idata[(y+j)*width + x];

  __syncthreads();

  x = blockIdx.y * TILE_DIM + threadIdx.x;  // transpose block offset
  y = blockIdx.x * TILE_DIM + threadIdx.y;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     odata[(y+j)*width + x] = tile[threadIdx.x][threadIdx.y + j];
}

可以看出程序的工作主要是先将y维度4个8线程对应的元素组装成32*32的子矩阵，存入共享内存tile中，再进行转置操作。

从下图可以看出，矩阵分块求转置的过程，只是将各block的x方向与y方向的id对调下，这样就比较容易理解了。
在这里插入图片描述
而tile内部的交换通过下列语句实现：

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     odata[(y+j)*width + x] = tile[threadIdx.x][threadIdx.y + j];

3.使用Shared Memory，并加入No Bank Conflicts

Bank Conflicts是指，当一个warp中的不同线程访问一个bank中的不同的字地址时，就会发生bank冲突。

解决办法是通过memory padding操作。

这块理解的很浅，后续有机会深入理解后再补充。

// No bank-conflict transpose
// Same as transposeCoalesced except the first tile dimension is padded 
// to avoid shared memory bank conflicts.
__global__ void transposeNoBankConflicts(float *odata, const float *idata)
{
  __shared__ float tile[TILE_DIM][TILE_DIM+1];
    
  int x = blockIdx.x * TILE_DIM + threadIdx.x;
  int y = blockIdx.y * TILE_DIM + threadIdx.y;
  int width = gridDim.x * TILE_DIM;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     tile[threadIdx.y+j][threadIdx.x] = idata[(y+j)*width + x];

  __syncthreads();

  x = blockIdx.y * TILE_DIM + threadIdx.x;  // transpose block offset
  y = blockIdx.x * TILE_DIM + threadIdx.y;

  for (int j = 0; j < TILE_DIM; j += BLOCK_ROWS)
     odata[(y+j)*width + x] = tile[threadIdx.x][threadIdx.y + j];
}

可见唯一的差别就在于这一句：

__shared__ float tile[TILE_DIM][TILE_DIM+1];

4.效果对比

此代码在我的jetson nano上运行结果如下：
在这里插入图片描述
使用了shared memory及no_bank_conflicts优化后，提升明显。

参考文献

[1] An Efficient Matrix Transpose in CUDA C/C++
[2] NVIDIA-developer-blog github：transpose.cu
[3] CUDA矩阵转置优化

外卖猿

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
打赏
0
评论
【参加CUDA线上训练营】共享内存实例1：矩阵转置实现及其优化②

本文参考Nvidia官方blog及其对应的github代码学习下共享内存的使用，感受下其加速效果。
复制链接

扫一扫

专栏目录

【参加CUDA线上训练营】共享内存实例1：矩阵转置实现及其优化②

【参加CUDA线上训练营】共享内存实例1：矩阵转置实现及其优化②

1.不使用Shared Memory

2.使用Shared Memory

3.使用Shared Memory，并加入No Bank Conflicts

4.效果对比

参考文献

“相关推荐”对你有帮助么？