CUDA编程中kernel与device函数的区别，device、host和global

爱串门的小马驹

于 2024-10-12 07:15:54 发布

阅读量412

点赞数 4

分类专栏： CUDA 文章标签： cuda

本文链接：https://blog.csdn.net/lianghuaju/article/details/142843758

版权

CUDA 专栏收录该内容

1 篇文章 0 订阅

订阅专栏

在CUDA编程中，__device__、__host__和__global__是三个特殊的关键字，它们用于定义函数的执行位置和可见性。

在CUDA编程中，kernel函数和device函数是两种不同的函数类型，它们在执行环境和调用方式上有所区别：

`一、device`：

这个关键字用于声明一个函数，使其能够在GPU上执行。
__device__函数可以被其他__device__函数和__global__函数（即kernel函数）调用。
__device__函数不能直接被CPU上的代码（host代码）调用，但可以通过将它们与__host__一起使用来实现。

`二、host`：

这个关键字用于声明一个函数，使其能够在CPU上执行。
__host__函数可以被CPU上的代码调用，但默认情况下不能在GPU上执行。
如果一个函数同时被声明为__host__和__device__（即__host__ __device__），那么它可以在CPU和GPU上执行。

`三、device`：

这个关键字用于声明一个函数，使其成为一个kernel函数，可以在GPU上被并行执行。
__global__函数不能直接被其他函数调用，而是由CPU上的代码通过指定grid和block的维度来启动。
__global__函数可以调用__device__函数，但不能直接调用__host__函数。

一个函数可以有以下组合：

仅__device__：只能在GPU上执行。
仅__host__：只能在CPU上执行。
__host__ __device__：可以在CPU和GPU上执行。
__global__：是一个kernel函数，只能在GPU上执行，并且由CPU上的代码启动。

四、kernel函数

在CUDA编程中，kernel函数是由host端（即CPU上的代码）发起调用的。host端负责准备数据、调用kernel函数以及处理kernel执行完成后的结果。

Kernel函数：
- Kernel函数是用__global__关键字声明的，它在GPU上并行执行。
- Kernel函数不能有返回值，但是可以有参数。
- Kernel函数的执行需要从CPU端通过三重尖括号（<<< >>>）来调用。
- Kernel函数内部可以调用其他device函数。
- Kernel函数通常用于执行大规模并行计算任务。

调用kernel函数时，需要指定kernel函数在GPU上的执行配置，这包括：

Grid尺寸：Grid是所有线程的集合，每个kernel函数的执行都是由多个线程并行执行的。Grid的尺寸定义了kernel函数将启动多少个线程块（block）。
Block尺寸：Block是grid中的一个子集，包含多个线程。Block的尺寸定义了每个线程块中包含多少个线程。
共享内存大小（可选）：每个block可以拥有一块共享内存，这个参数定义了每个block的共享内存的大小。

这些参数是通过一组三个尖括号（<<< >>>）来指定的，例如：

kernel<<<gridSize, blockSize>>>(args...);

这里的gridSize和blockSize通常是dim3类型的变量，它们定义了grid和block的维度。args...是传递给kernel函数的参数。

例如：

dim3 gridSize(10, 10, 1); // 假设我们有10x10个线程块
dim3 blockSize(100, 1, 1); // 每个线程块有100个线程
kernel<<<gridSize, blockSize>>>(data);

在这个例子中，我们将启动一个kernel，它有100个线程块，每个线程块有100个线程，总共有10,000个线程并行执行。

在kernel执行完成后，host端的程序可以继续执行其他任务，如处理kernel的输出结果、释放资源或者启动另一个kernel。

五、device函数

device函数（使用__device__关键字声明的函数）可以在GPU上被其他device函数或者kernel函数调用，而不需要从host（CPU）直接调用。device函数通常用于在GPU上执行一些辅助计算任务，它们可以被设计为被并行执行的kernel函数中的线程调用。

Device函数：
- Device函数是用__device__关键字声明的，它也可以在GPU上执行。
- Device函数可以有返回值和参数。
- Device函数可以从其他device函数或者kernel函数中调用。
- Device函数通常用于执行一些辅助计算任务，或者在kernel函数中被调用以实现某些功能。

此外，还有一种特殊的device函数，它可以用__device__和__host__两个关键字声明，这样的函数既可以在GPU上执行，也可以在CPU上执行。

device函数的特点包括：

可在GPU上执行：它们可以在GPU设备上直接执行，而不需要CPU的介入。
可以有返回值：与kernel函数不同，device函数可以有返回值，这使得它们可以用于计算并返回一些值。
可以被kernel调用：在kernel函数执行的过程中，可以调用device函数来执行一些特定的计算。
可以被其他device函数调用：一个device函数可以调用另一个device函数，实现函数的嵌套调用。
调用方式：device函数的调用方式与普通函数类似，不需要特定的执行配置或三重尖括号。

例如，如果你有一个复杂的数学运算需要在kernel中多次使用，你可以将其实现为一个device函数，然后在kernel中调用它，如下所示：

__device__ float complexCalculation(float x) {
    // 执行一些计算
    return result;
}

__global__ void kernel(float* input, float* output) {
    int idx = threadIdx.x + blockIdx.x * blockDim.x;
    output[idx] = complexCalculation(input[idx]);
}

在这个例子中，complexCalculation是一个device函数，它在GPU上执行计算，并被kernel函数中的每个线程调用。

如果你想要从host端调用device函数，你可以使用__host__和__device__同时声明该函数，使其成为可在host和device上执行的函数：

__host__ __device__ float add(float a, float b) {
    return a + b;
}

但是，这种情况下，当你从host端调用这个函数时，它实际上是在CPU上执行的，而不是在GPU上。

爱串门的小马驹

关注

4
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

CUDA编程中kernel与device函数的区别，__device__、__host__和__global__

一、__device__：

二、__host__：

三、__device__：