CUDA常用函数

混元太极马保国

已于 2023-09-17 21:31:41 修改

阅读量1.3k

点赞数 1

分类专栏： CUDA 文章标签： cuda c++

于 2023-07-30 21:11:35 首次发布

本文链接：https://blog.csdn.net/qq_33598781/article/details/132003923

版权

CUDA 专栏收录该内容

11 篇文章

订阅专栏

cudaDeviceSynchronize用于同步所有CUDA流，确保主机与设备间操作正确顺序；cudaDeviceReset重置CUDA资源，防止内存泄漏；cudaGetDeviceCount和cudaSetDevice管理设备选择与属性查询。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cudaDeviceSynchronize

cudaDeviceSynchronize是一个CUDA函数，用于同步当前设备上的所有CUDA流。它会阻塞调用它的线程，直到所有设备上的CUDA流都执行完为止。这可以确保在进行后续的CUDA操作时，先前的操作已经完成。

在CUDA程序中，通常需要使用cudaDeviceSynchronize来确保在主机代码继续执行之前，所有的CUDA代码都已经执行完毕。这可以避免由于异步执行而导致的数据竞争和其他问题。但是，过多地使用cudaDeviceSynchronize可能会导致程序的性能下降，因此需要谨慎使用。

#include <stdio.h>

__global__ void hello_from_gpu()
{
    printf("Hello World from the GPU!\n");
}

int main(void)
{
    hello_from_gpu<<<2, 4>>>();
    cudaDeviceSynchronize();
    return 0;
}

去掉这个函数就打印不出字符串了。这是因为调用输出函数时，输出流是先存放在缓冲区
的，而缓冲区不会自动刷新。只有程序遇到某种同步操作时缓冲区才会刷新。函数cudaDeviceSynchronize 的作用是同步主机与设备，所以能够促使缓冲区刷新。

cudaDeviceReset

用于重置当前设备上的所有CUDA资源，包括显存、设备状态和所有CUDA上下文。它会释放设备上的所有已分配资源，以及清除所有已注册的回调函数。

在CUDA程序中，通常需要在程序结束时调用cudaDeviceReset来确保所有CUDA资源都被正确释放。如果没有调用cudaDeviceReset，那么在程序结束时可能会出现内存泄漏或其他资源泄漏问题。此外，在程序运行期间，也可以调用cudaDeviceReset来释放和重置设备资源，以便在程序执行期间重复使用设备。

#include <stdio.h>

__global__ void hello_from_gpu()
{
    printf("Hello World from the GPU!\n");
}

int main(void)
{
    hello_from_gpu<<<2, 4>>>();
    cudaDeviceReset();
    return 0;
}

此处调用cudaDeviceReset也会达到cudaDeviceSynchronize的效果使语句输出，因为是使核函数强制完成返回了，所以达到了类似于同步的效果，还是比较危险的。

cudaGetDeviceCount(&count)

获取系统中可用的 CUDA 设备数量。

cudaSetDevice(int device)

用于选择当前要使用的 CUDA 设备。

cudaGetDeviceProperties(cudaDeviceProp* prop, int device)

用于检索指定 CUDA 设备的属性信息。

struct cudaDeviceProp {
    char name[256]; // 识别设备的ASCII字符串（比如，"GeForce GTX 940M"）
    size_t totalGlobalMem; // 全局内存大小
    size_t sharedMemPerBlock; // 每个block内共享内存的大小
    int regsPerBlock; // 每个block 32位寄存器的个数
    int warpSize; // warp大小
    size_t memPitch; // 内存中允许的最大间距字节数
    int maxThreadsPerBlock; // 每个Block中最大的线程数是多少
    int maxThreadsDim[3]; // 一个块中每个维度的最大线程数
    int maxGridSize[3]; // 一个网格的每个维度的块数量
    size_t totalConstMem; // 可用恒定内存量
    int major; // 该设备计算能力的主要修订版号
    int minor; // 设备计算能力的小修订版本号
    int clockRate; // 时钟速率
    size_t textureAlignment; // 该设备对纹理对齐的要求
    int deviceOverlap; // 一个布尔值，表示该装置是否能够同时进行cudamemcpy()和内核执行
    int multiProcessorCount; // 设备上的处理器的数量
    int kernelExecTimeoutEnabled; // 一个布尔值，该值表示在该设备上执行的内核是否有运行时的限制
    int integrated; // 返回一个布尔值，表示设备是否是一个集成的GPU（即部分的芯片组、没有独立显卡等）
    int canMapHostMemory; // 表示设备是否可以映射到CUDA设备主机内存地址空间的布尔值
    int computeMode; // 一个值，该值表示该设备的计算模式：默认值，专有的，或禁止的
    int maxTexture1D; // 一维纹理内存最大值
    int maxTexture2D[2]; // 二维纹理内存最大值
    int maxTexture3D[3]; // 三维纹理内存最大值
    int maxTexture2DArray[3]; // 二维纹理阵列支持的最大尺寸
    int concurrentKernels; // 一个布尔值，该值表示该设备是否支持在同一上下文中同时执行多个内核
｝