我刚刚开始在CUDA中进行编码,我试图了解如何执行线程和访问内存的概念,以便最大程度地利用GPU。我通读了CUDA最佳实践指南,《示例CUDA》一书以及此处的几篇文章。我还发现马克·哈里斯(Mark Harris)提出的简化示例非常有趣且有用,但是尽管有所有信息,但我对细节还是感到困惑。
假设我们有一个较大的2D数组(N * M),可以在该数组上执行列操作。我将数组拆分为多个块,以使每个块具有的线程数是32的倍数(所有线程都可容纳多个扭曲)。每个块中的第一个线程分配额外的内存(初始数组的副本,但仅用于其自身维的大小),并使用_shared _变量共享指针,以便同一块的所有线程都可以访问同一内存。由于线程数是32的倍数,因此应该在一次读取中访问该内存。但是,我需要在内存块周围加一个额外的边框(边框),以便数组的宽度变为(32 * x)+2列。边界来自分解大型数组,因此我有一个重叠的区域,在该区域中可以临时获得其邻居的副本。
缩小内存访问:
想象一个块的线程正在访问本地内存块
1 int x = threadIdx.x;
2
3 for (int y = 0; y < height; y++)
4 {
5 double value_centre = array[y*width + x+1]; // remeber we have the border so we need an offset of + 1
6 double value_left = array[y*width + x ]; // hence the left element is at x
7 dou