cuda合并访问的要求_关于c ++：CUDA-了解线程(扭曲)的并行执行和合并的内存访问...

最新推荐文章于 2023-12-09 21:50:51 发布

weixin_39870199

最新推荐文章于 2023-12-09 21:50:51 发布

阅读量143

点赞数

文章标签： cuda合并访问的要求

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_39870199/article/details/111549791

版权

我刚刚开始在CUDA中进行编码，我试图了解如何执行线程和访问内存的概念，以便最大程度地利用GPU。我通读了CUDA最佳实践指南，《示例CUDA》一书以及此处的几篇文章。我还发现马克·哈里斯(Mark Harris)提出的简化示例非常有趣且有用，但是尽管有所有信息，但我对细节还是感到困惑。

假设我们有一个较大的2D数组(N * M)，可以在该数组上执行列操作。我将数组拆分为多个块，以使每个块具有的线程数是32的倍数(所有线程都可容纳多个扭曲)。每个块中的第一个线程分配额外的内存(初始数组的副本，但仅用于其自身维的大小)，并使用_shared _变量共享指针，以便同一块的所有线程都可以访问同一内存。由于线程数是32的倍数，因此应该在一次读取中访问该内存。但是，我需要在内存块周围加一个额外的边框(边框)，以便数组的宽度变为(32 * x)+2列。边界来自分解大型数组，因此我有一个重叠的区域，在该区域中可以临时获得其邻居的副本。

缩小内存访问：

想象一个块的线程正在访问本地内存块

1 int x = threadIdx.x;

2

3 for (int y = 0; y < height; y++)

4 {

5 double value_centre = array[y*width + x+1]; // remeber we have the border so we need an offset of + 1

6 double value_left = array[y*width + x ]; // hence the left element is at x

7 dou

最低0.47元/天解锁文章

weixin_39870199

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
cuda合并访问的要求_关于c ++：CUDA-了解线程(扭曲)的并行执行和合并的内存访问...

我刚刚开始在CUDA中进行编码，我试图了解如何执行线程和访问内存的概念，以便最大程度地利用GPU。我通读了CUDA最佳实践指南，《示例CUDA》一书以及此处的几篇文章。我还发现马克·哈里斯(Mark Harris)提出的简化示例非常有趣且有用，但是尽管有所有信息，但我对细节还是感到困惑。假设我们有一个较大的2D数组(N * M)，可以在该数组上执行列操作。我将数组拆分为多个块，以使每个块具有的线程...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。