给cuda核函数传递二维数组的一种方法

最新推荐文章于 2024-09-07 23:17:51 发布

lingerlanlan

最新推荐文章于 2024-09-07 23:17:51 发布

阅读量9.7k

点赞数 5

文章标签： cuda 二维数组

本文链接：https://blog.csdn.net/lingerlanlan/article/details/24399909

版权

#include <stdio.h>

/**
 * 需求：需要把若干个一维数组传给核函数
 * 实现方法：在gpu生成一个一维的指针数组，每个元素指向一个普通一维数组。
 * 把该指针数组的地址传递给核函数。
 * 其实该指针数组充当二维数组的角色。
 */

__global__ void
testKernel(float ** pointerArray)
{
	printf("(%d,%d):%f\n",threadIdx.y,threadIdx.x,pointerArray[threadIdx.y][threadIdx.x]);
}


int main()
{

	int rows = 2;
	int cols = 2;


	float** host_2d = new float*[rows];
	float** dev_2d;
	for (int k = 0; k < rows; k++)
	{
		float* host_1d = new float[cols];
		//---------下面两个是测试数据，看看核函数printf输出的是否与这个一致------------------------------
		host_1d[0] = 0;
		host_1d[1] = 1;

		float* dev_1d ;
		cudaMalloc((void**)&dev_1d,sizeof(float)*cols);//该指针指向的是一个float数组
		cudaMemcpy(dev_1d,host_1d,sizeof(float)*cols,cudaMemcpyHostToDevice);

		host_2d[k] = dev_1d;
	}
	cudaMalloc((void**)&dev_2d,sizeof(float*)*rows);
	cudaMemcpy(dev_2d,host_2d,sizeof(float*)*rows,cudaMemcpyHostToDevice);

	dim3 threads(rows,cols);
	testKernel<<<1,threads>>>(dev_2d);

	cudaDeviceSynchronize();

	//记得释放内存啊，养成好习惯。这里省去这部分代码




return 0;
}

输出结果：

(0,0):0.000000
(0,1):1.000000
(1,0):0.000000
(1,1):1.000000

与猜想一致

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

lingerlanlan

关注关注

5
点赞
踩
20

收藏

觉得还不错? 一键收藏
7
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

在CUDA如何使用二维数组（**[M][N]）

爱.NET

06-16

2526

总有些童鞋想知道怎么在CUDA中使用二维数组（[M][N]这种类型），其实这个很简单，不过你要完全弄明白，必须对指针，地址等概念非常清楚才行。写这篇博客解决下大家这个问题： 1、首先讲述一下在一般C语言中如何使用二维数组。 int r, c; int **arr = (int**)malloc(ROWS*sizeof(int*)); int *data = (int*)malloc(COLS*...

cuda之二维数组的高效内存管理（cudaMallocPitch/cudaMemcpy2D）

03-27

2489

因为cuda具有高效利用GPU进行科学计算的优势，而人工智能的重点之一就是复杂的计算任务，因此学好GPU计算是学习AI的重点任务。这里，我们即将进行利用共享内存的矩阵运算。我们看一个例子，如何对矩阵进行分配显卡内存以及元素赋值操作。通常来讲，在GPU中分配内存使用的是cudaMal...

7 条评论您还未登录，请先登录后发表或查看评论

GPU高性能计算CUDA编程：CPU到GPU的数据传输

最新发布

m0_51165837的博客

09-07

304

GPU高性能计算CUDA编程：CPU到GPU的数据传输

关于CUDA的二维数组

czw0723的博客

04-03

3775

直接上代码，最奇怪的几点就是貌似 1.对设备内存的操作-指定二维指针指向的一维指针，需要在设备函数中做，在主机中做会爆炸-- 2.貌似设备的形参就是传递了引用。，而不需要加&了，非常奇怪，加了&反而会错误。但是在主机代码中，是需要加& 的。我只能瞎猜，CUDA的函数里面不允许引用了。。补充一个PPT #include <cuda_runtime.h>...

CUDA拷贝二维数组到GPU内存中

Dezeming的博客

11-22

2911

CUDA 复杂问题 + 细节问题解答见CUDA复杂问题 + 细节问题解答网上没找到如何拷贝二维数组到GPU的例程，所以我就自己写一个，其实原理也很简单，就是用三维指针导入给二维指针分配内存。先说一下我们的目标：导入到GPU一个二维数组：dev_data[arrayNum][mwidth * mheight]，该数组内元素的值是data[i][j] = i + 0.001*j。我们首先先输出data[i][7]。然后我们再在GPU里把数组的data[i][7]全都改为82，然后再输出所有的..

二维数组 cudaMallocPitch() 和三维数组 cudaMalloc3D() 的使用

晴树的专栏

01-04

2200

▶ 使用函数 cudaMallocPitch() 和配套的函数 cudaMemcpy2D() 来使用二维数组。C 中二维数组内存分配是转化为一维数组，连贯紧凑，每次访问数组中的元素都必须从数组首元素开始遍历；而 cuda 中这样分配的二维数组内存保证了数组每一行首元素的地址值都按照 256 或 512 的倍数对齐，提高访问效率，但使得每行末尾元素与下一行首元素地址可能不连贯，使用指针寻址时要注意考...

cuda中,两个维度的数组如何使用也是看了别人的文章,完后自己也实现一下

闲暇余客

08-25

360

cudaimprocess.h #define M 16 #define N 16 __global__ void build_TransMat(float* d_transMat,size_t pitch); void D2DimTest(); cudaimprocess.cu __global__ void build_TransMat(float * d_transMat, size...

CUDA C编程学习笔记

tmyttt2333的博客

01-06

957

尽管可以使用多核和众核来区分CPU和GPU的架构，但这两种核心是完全不同的。 CPU核心比较重，用来处理非常复杂的控制逻辑，以优化串行程序执行。 GPU核心较轻，用于优化具有简单控制逻辑的数据并行任务，注重并行程序的吞吐量。。GPU不是一个独立运行的平台而是CPU的协处理器。因此，GPU必须通过PCIe总线与基于CPU的主机相连来进行操作， CUDA编程模型假设系统是由一个主机和一个设备组成的，而且各自拥有独立的内存。核函数是在设备上运行的。为使你拥有充分的控制权并使系统达到最佳性能，CUDA 运行

pytorch的c++/cuda扩展，CUDA编程

xx_xjm的博客

04-25

2631

我们知道C++，C这类的编程语言是为了让计算机执行我们的指令，确切一点是让计算机的cpu执行我们的执行，现在cuda编程则是要让显卡中的计算核心执行我们的指令；所以，cuda编程其实就是编写显卡中计算核心执行指令。为了区别于.cpp，.c这样的文件，我们取.cu后缀来指明当前的代码文件是给显卡用的；我们上面说了，.cu本质上还是写给CPU的，所以核函数其实也是C++函数的一种，只不过有一个特殊的限定词"__global__"，用以指明“这个C++函数，是用来调用显卡的！

深入理解CUDA内置变量—线程索引，内存位置，硬件特性

u012276729的博客

03-06

1033

作为C/C++编程中作为内置变量，不是直接对应硬件指令，而是CUDA编程模型中的抽象概念，用于标识线程在网格（grid）和块（block）中的位置，帮助开发者组织和标识线程。此外，线程索引通常不会直接保存在某种类型的“内存”上，而是作为CUDA内核函数的参数传递，并在函数内部使用。线程索引通常保存在GPU的内存上，具体来说，它们可能存储在全局内存、常量内存或纹理内存中，这取决于你如何使用它们。值，用于计算线程的全局索引，从而访问全局内存中的数据，或者用于执行特定的任务。

两种不同的核函数引发的访问共享内存以及全局内存的区别

weixin_42470012的博客

12-04

768

最近发现了一条真理，那就是科研项目中遇到问题，千万别企图绕过去，因为，最终还是会发现，那个悬而未决的问题会最终把你带回原地。废话不多说，先盗用大佬的一张图，在CUDA架构下, 显示芯片执行时的最小单位是thread. 数个thread可以组成一个block. 一个block中的thread能存取同一块共享的内存(shared memory), 而且可以快速进行同步的动作, 特别要注意, 这是块(b...

深度学习运算：CUDA 编程简介

gongdiwudu的专栏

04-26

2552

如今，当我们谈论深度学习时，通常会将其实现与利用 GPU 来提高性能联系起来。GPU（图形处理单元）最初设计用于加速图像、2D 和 3D 图形的渲染。然而，由于它们能够执行许多并行操作，因此它们的实用性超出了深度学习等应用程序。

CUDA使用二级指针表示二维数组

DreamerZhang的专栏

06-09

6605

首先看下我们在CPU上是如何用二级指针表示二维数组的，其实就两点：一是用一级指针保存数据，二是用二级指针去按行索引数据位置。关于一级指针和二级指针的内存分配这里不讲了，注意数据类型就可以了。代码做了相关说明，应该比较好理解： #define Row 8 #define Col 4 //声明Row个行指针: cpuA cpuA+0 cpuA+1 cpuA+Row int

cuda数据传输之cudaMemcpy()和cudaMemcpy2D()详解

qq_45241855的博客

05-11

7320

核函数中：a = (double*)((char*)dev_a + i*pitch)，这样对a的遍历方式是获取数组每一行的数据，同时计算a的结果直接作用在dev_a 上，而不需要再将a赋值给dev_a！总结：无论一维还是二维数组，都变为一维数组，进行传递，二维数组要注意数组的宽度大小。2. cudaMemcpy2D()传递一维数组、二维数组，已经核函数索引遍历的方法。再核函数中对一维数组索引，直接是0下标索引。

Cuda手撕二维数组

bocai1215的博客

08-18

571

背景：项目开发过程中，有小伙伴（姑且称为小甲）写cuda程序一直运行出错，且百思不得其解，反复查看逻辑，感觉没有问题，一起review代码发现，其cuda逻辑中使用了二维指针，且使用错误，cuda二维指针的使用，初学者如果不使用cuda本身二维数组的申请，直接使用cudaMalloc，及其容易出错，因此写该篇文章，以供参考。...

二维vector传递到CUDA中实现并行计算

勉強

01-20

1433

std::vector<std::vector>传递到CUDA中实现并行计算一、vector内存分配我们知道std::vector内存分配时连续的，但是对于二维数组或多维数组来说，内部vector不占用外部vector的空间，所以二维数组或多维数组内部每一行的内存都是连续的，外部vector存储内部vector的相关信息，也是连续的。详细内容可参考这篇博客：https://blog...

CUDA与二维动态数组

xhz1234的专栏

04-22

6440

二维数组和二维指针在CUDA中的应用

weixin_33963189的博客

11-28

243

CUDA是一个线程网络，我特别想弄清楚的一件事情是，主机如果是个二维的数组，传到设备中，是否还是可以用二维数组来表示呢？很多例子都是将二维的数组映射到一个一维指针变量中去。但是我就是还想在设备中也用arr[][]的形式来找到我想要的那个元素，可以吗？肯定是可以的。方案一：栈定义arr[2][10]，直接用地址传进去。但是栈的空间很小，在CPU中能声明的数组就不大。所以，这里不讨论这个方案。...

CUDA之二维数组分配内存及初始化

SUSU0203的博客

10-17

9371

在GPU中，对一维数组分配内存使用的是cudaMalloc函数，但是对于二维数组，使用cudaMalloc来分配内存并不能得到最好的性能。因为对于2D内存，对齐是一个很重要的性质，cudaMallocPitch函数能够保证分配的内存是合理对齐的，满足物理上的内存访问，因此可以保证对行访问时具有最优的效率。对数组进行初始化应当使用cudaMemset2D，进行内存赋值应当使用cudaM...

cuda核函数中二维数组索引怎么计算

05-03

在CUDA核函数中，二维数组的索引可以使用以下公式进行计算： ```c int idx = blockIdx.x * blockDim.x + threadIdx.x; int idy = blockIdx.y * blockDim.y + threadIdx.y; int index = idy * width + idx; ``` 其中，`blockIdx.x` 和 `blockIdx.y` 是当前线程块的索引，`blockDim.x` 和 `blockDim.y` 是当前线程块的大小，`threadIdx.x` 和 `threadIdx.y` 是当前线程在块中的索引。 `idx` 和 `idy` 分别是当前线程在 x 和 y 方向上的索引。最后的 `index` 是通过将 `idy` 乘以数组的宽度，然后加上 `idx` 得到的一维数组索引。需要注意的是，这里假设数组的排列是按行优先的（row-major），即在内存中按行连续存储。如果是按列优先的（column-major），则需要将 `idy` 乘以数组的列数而不是宽度。