cuda合并访问的要求_关于c ++:CUDA-了解线程(扭曲)的并行执行和合并的内存访问...

我刚刚开始在CUDA中进行编码,我试图了解如何执行线程和访问内存的概念,以便最大程度地利用GPU。我通读了CUDA最佳实践指南,《示例CUDA》一书以及此处的几篇文章。我还发现马克·哈里斯(Mark Harris)提出的简化示例非常有趣且有用,但是尽管有所有信息,但我对细节还是感到困惑。

假设我们有一个较大的2D数组(N * M),可以在该数组上执行列操作。我将数组拆分为多个块,以使每个块具有的线程数是32的倍数(所有线程都可容纳多个扭曲)。每个块中的第一个线程分配额外的内存(初始数组的副本,但仅用于其自身维的大小),并使用_shared _变量共享指针,以便同一块的所有线程都可以访问同一内存。由于线程数是32的倍数,因此应该在一次读取中访问该内存。但是,我需要在内存块周围加一个额外的边框(边框),以便数组的宽度变为(32 * x)+2列。边界来自分解大型数组,因此我有一个重叠的区域,在该区域中可以临时获得其邻居的副本。

缩小内存访问:

想象一个块的线程正在访问本地内存块

1  int x = threadIdx.x;

2

3  for (int y = 0; y < height; y++)

4  {

5    double value_centre = array[y*width + x+1]; // remeber we have the border so we need an offset of + 1

6    double value_left   = array[y*width + x  ]; // hence the left element is at x

7    dou

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值