CUDA Driver API 详解：底层GPU编程的强大工具

扫地的小何尚

于 2025-03-21 20:38:18 发布

阅读量698

点赞数 22

分类专栏： CUDA编程文章标签： NVIDIA GPU linux AI 算法 CUDA

本文链接：https://blog.csdn.net/kunhe0512/article/details/146428685

版权

CUDA编程专栏收录该内容

38 篇文章

订阅专栏

CUDA Driver API 详解：底层GPU编程的强大工具

在这里插入图片描述

文章目录

CUDA Driver API 详解：底层GPU编程的强大工具
- 为什么要使用CUDA Driver API？
CUDA Driver API 详解：主体内容
结论：掌握CUDA Driver API，释放GPU编程的全部潜力

GTC 2025 中文在线解读｜ CUDA最新特性与未来 [WP72383]
NVIDIA GTC大会火热进行中，一波波重磅科技演讲让人应接不暇，3月24日，NVIDIA 企业开发者社区邀请Ken He、Yipeng Li两位技术专家，面向开发者，以中文深度拆解GTC2025四场重磅开发技术相关会议，直击AI行业应用痛点，破解前沿技术难题!

作为GPU计算领域的基石，CUDA通过其编程语言、编译器、运行时环境及核心库构建了完整的计算生态，驱动着人工智能、科学计算等前沿领域的创新发展。在本次在线解读活动中，将由CUDA架构师深度解析GPU计算生态的核心技术演进。带您了解今年CUDA平台即将推出的众多新功能，洞悉CUDA及GPU计算技术的未来发展方向。

时间：3月24日18:00-19:00
中文解读:Ken He / Developer community
链接：link: https://www.nvidia.cn/gtc-global/session-catalog/?tab.catalogallsessionstab=16566177511100015Kus&search=WP72383%3B%20WP72450%3B%20WP73739b%3B%20WP72784a%20#/session/1739861154177001cMJd=

在NVIDIA CUDA编程模型中，有两套API可供开发者使用：高级的CUDA Runtime API和底层的CUDA Driver API。大多数开发者可能更熟悉Runtime API，因为它提供了更简单的编程模型和更高级的抽象。然而，Driver API提供了对GPU的更直接、更细粒度的控制，使开发者能够实现更高级的功能和更精细的性能优化。

本文将深入探讨CUDA Driver API的各个方面，包括其基本概念、关键组件、使用方法以及与Runtime API的区别和互操作性。我们还将提供大量代码示例，帮助您理解如何在实际应用中使用Driver API。

为什么要使用CUDA Driver API？

在深入了解Driver API之前，我们先来思考一个问题：既然已经有了更简单的Runtime API，为什么还需要使用更复杂的Driver API呢？以下是一些使用Driver API的主要原因：

更精细的控制：Driver API提供了对CUDA环境的更直接控制，包括上下文管理、模块加载和内核执行等方面。
动态代码加载：Driver API允许在运行时动态加载和编译CUDA代码，这在某些应用场景（如即时编译、插件系统等）中非常有用。
多上下文支持：Driver API允许在同一进程中创建和管理多个CUDA上下文，这对于某些高级应用（如多GPU协作、GPU虚拟化等）是必要的。
与其他图形API的互操作性：Driver API更容易与OpenGL、DirectX等图形API集成。
更低级别的内存管理：Driver API提供了更直接的内存管理功能，允许开发者更精确地控制内存分配和使用。
特定硬件功能的访问：某些特定的硬件功能可能只能通过Driver API访问。

虽然Driver API提供了这些优势，但它也有一些缺点，如更复杂的编程模型、更冗长的代码和更陡峭的学习曲线。因此，选择使用哪种API应该基于您的具体需求和应用场景。

在接下来的章节中，我们将详细介绍CUDA Driver API的各个方面，并通过丰富的代码示例展示如何有效地使用它。无论您是CUDA新手还是经验丰富的开发者，本文都将帮助您更好地理解和利用CUDA Driver API的强大功能。

CUDA Driver API 详解：主体内容

1. CUDA Driver API 概述

CUDA Driver API 是 NVIDIA CUDA 编程模型中的底层 API，它提供了对 GPU 资源的直接、细粒度控制。与更高级别的 CUDA Runtime API 相比，Driver API 需要开发者显式管理 CUDA 环境的各个方面，包括初始化、上下文管理、模块加载和内核执行等。

1.1 Driver API 与 Runtime API 的区别

特性	Driver API	Runtime API
初始化	显式（`cuInit`）	隐式（首次调用任何 CUDA 函数时）
上下文管理	显式	隐式（每个设备自动创建一个主上下文）
模块管理	显式（加载 PTX 或 CUBIN）	隐式（编译时链接）
内核启动	显式（获取函数句柄并配置启动参数）	简化（使用 `<<<>>>` 语法）
函数前缀	`cu` 前缀	`cuda` 前缀
编程复杂度	较高	较低
灵活性	较高	较低

1.2 基本工作流程

使用 CUDA Driver API 的基本工作流程如下：

初始化 CUDA Driver API（cuInit）
获取设备句柄（cuDeviceGet）
创建 CUDA 上下文（cuCtxCreate）
加载 CUDA 模块（cuModuleLoad 或 cuModuleLoadData）
获取内核函数句柄（cuModuleGetFunction）
分配设备内存（cuMemAlloc）
将数据从主机复制到设备（cuMemcpyHtoD）
配置并启动内核（cuLaunchKernel）
将结果从设备复制回主机（cuMemcpyDtoH）
清理资源（释放内存、卸载模块、销毁上下文）

2. 初始化与设备管理

2.1 初始化 CUDA Driver API

在使用任何其他 Driver API 函数之前，必须先调用 cuInit 函数来初始化 CUDA Driver API。这与 Runtime API 不同，后者会在首次调用任何 CUDA 函数时自动初始化。

CUresult result = cuInit(0);  // 参数 0 是保留值，目前必须为 0
if (result != CUDA_SUCCESS) {
    // 处理错误
    const char* errorString;
    cuGetErrorString(result, &errorString);
    printf("CUDA 初始化失败：%s\n", errorString);
    return -1;
}

2.2 设备枚举与属性查询

初始化 CUDA Driver API 后，可以枚举系统中的 CUDA 设备并查询它们的属性。

int deviceCount = 0;
cuDeviceGetCount(&deviceCount);
printf("发现 %d 个 CUDA 设备\n", deviceCount);

for (int i = 0; i < deviceCount; i++) {
    CUdevice device;
    cuDeviceGet(&device, i);
    
    char name[128];
    cuDeviceGetName(name, sizeof(name), device);
    
    int computeCapabilityMajor = 0, computeCapabilityMinor = 0;
    cuDeviceComputeCapability(&computeCapabilityMajor, &computeCapabilityMinor, device);
    
    size_t totalMemory = 0;
    cuDeviceTotalMem(&totalMemory, device);
    
    printf("设备 %d: %s\n", i, name);
    printf("  计算能力: %d.%d\n", computeCapabilityMajor, computeCapabilityMinor);
    printf("  总内存: %.2f GB\n", totalMemory / (1024.0 * 1024.0 * 1024.0));
}

2.3 设备属性详解

CUDA 设备有许多属性，可以通过 cuDeviceGetAttribute 函数查询。以下是一些常用的设备属性：

CUdevice device;
cuDeviceGet(&device, 0);  // 获取第一个设备

int value = 0;
// 查询多处理器数量
cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_MULTIPROCESSOR_COUNT, device);
printf("多处理器数量: %d\n", value);

// 查询最大线程块大小
cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_BLOCK, device);
printf("每个块的最大线程数: %d\n", value);

// 查询每个多处理器的最大线程数
cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_MAX_THREADS_PER_MULTIPROCESSOR, device);
printf("每个多处理器的最大线程数: %d\n", value);

// 查询共享内存大小
cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_MAX_SHARED_MEMORY_PER_BLOCK, device);
printf("每个块的最大共享内存: %d 字节\n", value);

// 查询统一寻址能力
cuDeviceGetAttribute(&value, CU_DEVICE_ATTRIBUTE_UNIFIED_ADDRESSING, device);
printf("统一寻址: %s\n", value ? "支持" : "不支持");

3. 上下文管理

在 CUDA Driver API 中，上下文是一个关键概念，类似于 CPU 进程。所有在 Driver API 中执行的资源和操作都封装在 CUDA 上下文中。

3.1 创建与销毁上下文

CUdevice device;
cuDeviceGet(&device, 0);  // 获取第一个设备

CUcontext context;
// 创建上下文，指定标志和设备
cuCtxCreate(&context, CU_CTX_SCHED_AUTO | CU_CTX_MAP_HOST, device);

// 使用上下文...

// 销毁上下文
cuCtxDestroy(context);

上下文创建标志包括：

CU_CTX_SCHED_AUTO：自动选择调度策略
CU_CTX_SCHED_SPIN：使用自旋等待
CU_CTX_SCHED_YIELD：使用线程让步
CU_CTX_SCHED_BLOCKING_SYNC：使用阻塞同步
CU_CTX_MAP_HOST：支持零拷贝内存
CU_CTX_LMEM_RESIZE_TO_MAX：将本地内存大小调整为最大值

3.2 上下文堆栈管理

每个主机线程维护一个上下文堆栈，当前上下文是堆栈顶部的上下文。可以使用以下函数管理上下文堆栈：

// 将上下文推入堆栈顶部
cuCtxPushCurrent(context);

// 获取当前上下文
CUcontext currentContext;
cuCtxGetCurrent(&currentContext);

// 从堆栈顶部弹出上下文
CUcontext poppedContext;
cuCtxPopCurrent(&poppedContext);

3.3 上下文的引用计数

CUDA 上下文使用引用计数机制进行管理。每个上下文都有一个使用计数，当计数降为 0 时，上下文会被销毁。

// 增加上下文的使用计数
cuCtxAttach(&context, 0);

// 减少上下文的使用计数
cuCtxDetach(context);

3.4 主上下文管理

每个设备都有一个主上下文，由 Runtime API 隐式创建。可以通过 Driver API 访问和管理这个主上下文：

CUdevice device;
cuDeviceGet(&device, 0);

// 获取设备的主上下文
CUcontext primaryContext;
cuDevicePrimaryCtxRetain(&primaryContext, device);

// 使用主上下文...

// 释放主上下文
cuDevicePrimaryCtxRelease(device);

4. 模块管理

在 CUDA Driver API 中，模块是设备代码和数据的动态可加载包，类似于 Windows 中的 DLL。

4.1 加载模块

可以从文件或内存中加载模块：

// 从文件加载模块
CUmodule module;
cuModuleLoad(&module, "kernel.cubin");  // 或 "kernel.ptx"

// 从内存中加载模块
const char* ptxCode = "...";  // PTX 代码字符串
cuModuleLoadData(&module, ptxCode);

// 从内存加载模块并解析编译错误
CUjit_option options[3];
void* optionValues[3];
char errorLog[8192], infoLog[8192];

options[0] = CU_JIT_ERROR_LOG_BUFFER;
optionValues[0] = (void*)errorLog;
options[1] = CU_JIT_ERROR_LOG_BUFFER_SIZE_BYTES;
optionValues[1] = (void*)(size_t)sizeof(errorLog);
options[2] = CU_JIT_INFO_LOG_BUFFER;
optionValues[2] = (void*)infoLog;

cuModuleLoadDataEx(&module, ptxCode, 3, options, optionValues);

4.2 获取函数和全局变量

从模块中获取内核函数和全局变量：

// 获取内核函数
CUfunction function;
cuModuleGetFunction(&function, module, "kernelName");

// 获取全局变量
CUdeviceptr devicePtr;
size_t size;
cuModuleGetGlobal(&devicePtr, &size, module, "globalVarName");

4.3 卸载模块

使用完模块后，应该卸载它以释放资源：

cuModuleUnload(module);

5. 内存管理

CUDA Driver API 提供了多种内存管理函数，用于在设备上分配和管理内存。

5.1 线性内存管理

线性内存是最常用的内存类型，可以通过以下函数管理：

// 分配设备内存
CUdeviceptr devicePtr;
size_t size = 1024 * sizeof(float);
cuMemAlloc(&devicePtr, size);

// 将数据从主机复制到设备
float* hostData = (float*)malloc(size);
for (int i = 0; i < 1024; i++) {
    hostData[i] = (float)i;
}
cuMemcpyHtoD(devicePtr, hostData, size);

// 将数据从设备复制回主机
float* resultData = (float*)malloc(size);
cuMemcpyDtoH(resultData, devicePtr, size);

// 设备到设备的内存复制
CUdeviceptr devicePtr2;
cuMemAlloc(&devicePtr2, size);
cuMemcpyDtoD(devicePtr2, devicePtr, size);

// 释放设备内存
cuMemFree(devicePtr);
cuMemFree(devicePtr2);
free(hostData);
free(resultData);

5.2 页锁定（固定）内存

页锁定内存不会被操作系统分页到磁盘，可以提高主机和设备之间的数据传输速度：

// 分配页锁定内存
float* pinnedData;
cuMemAllocHost((void**)&pinnedData, size);

// 使用页锁定内存...

// 释放页锁定内存
cuMemFreeHost(pinnedData);

5.3 统一虚拟寻址

在支持统一虚拟寻址的系统上，可以使用统一内存，简化内存管理：

// 分配统一内存
void* unifiedPtr;
cuMemAllocManaged(&unifiedPtr, size, CU_MEM_ATTACH_GLOBAL);

// 使用统一内存...
// 无需显式的内存复制，可以直接在主机和设备上访问

// 释放统一内存
cuMemFree((CUdeviceptr)unifiedPtr);

5.4 数组和纹理内存

对于需要纹理采样的应用，可以使用 CUDA 数组和纹理：

// 创建 CUDA 数组
CUDA_ARRAY_DESCRIPTOR arrayDesc;
arrayDesc.Width = width;
arrayDesc.Height = height;
arrayDesc.Format = CU_AD_FORMAT_FLOAT;
arrayDesc.NumChannels = 1;

CUarray cuArray;
cuArrayCreate(&cuArray, &arrayDesc);

// 将数据复制到数组
CUDA_MEMCPY2D copyParams;
memset(&copyParams, 0, sizeof(copyParams));
copyParams.srcMemoryType = CU_MEMORYTYPE_HOST;
copyParams.srcHost = hostData;
copyParams.srcPitch = width * sizeof(float);
copyParams.dstMemoryType = CU_MEMORYTYPE_ARRAY;
copyParams.dstArray = cuArray;
copyParams.WidthInBytes = width * sizeof(float);
copyParams.Height = height;
cuMemcpy2D(&copyParams);

// 创建纹理引用
CUtexref texRef;
cuTexRefCreate(&texRef);
cuTexRefSetArray(texRef, cuArray, CU_TRSA_OVERRIDE_FORMAT);
cuTexRefSetFilterMode(texRef, CU_TR_FILTER_MODE_LINEAR);
cuTexRefSetAddressMode(texRef, 0, CU_TR_ADDRESS_MODE_WRAP);
cuTexRefSetAddressMode(texRef, 1, CU_TR_ADDRESS_MODE_WRAP);
cuTexRefSetFormat(texRef, CU_AD_FORMAT_FLOAT, 1);

// 将纹理引用绑定到模块
cuModuleGetTexRef(&texRef, module, "texRef");

// 使用完毕后释放资源
cuArrayDestroy(cuArray);

6. 内核执行

CUDA Driver API 提供了灵活的内核执行机制，允许开发者精确控制内核的启动配置。

6.1 配置和启动内核

// 获取内核函数
CUfunction function;
cuModuleGetFunction(&function, module, "kernelName");

// 设置内核参数
void* args[] = { &devicePtr, &size, &otherParam };

// 配置执行参数
int blockSizeX = 256;
int gridSizeX = (size + blockSizeX - 1) / blockSizeX;

// 启动内核
cuLaunchKernel(function,
               gridSizeX, 1, 1,           // 网格维度
               blockSizeX, 1, 1,          // 块维度
               0,                          // 共享内存大小
               NULL,                       // 流
               args,                       // 参数
               NULL);                      // 额外选项

// 同步等待内核完成
cuCtxSynchronize();

6.2 参数传递方式

CUDA Driver API 提供了两种向内核传递参数的方式：

指针数组：如上例所示，将参数指针放入数组中传递。
参数缓冲区：将所有参数打包到一个缓冲区中，并使用 CU_LAUNCH_PARAM_BUFFER_POINTER 选项传递。

// 使用参数缓冲区
char paramBuffer[256];
size_t offset = 0;

// 添加第一个参数
*(CUdeviceptr*)(paramBuffer + offset) = devicePtr;
offset += sizeof(CUdeviceptr);

// 添加第二个参数
*(int*)(paramBuffer + offset) = size;
offset += sizeof(int);

// 添加第三个参数
*(float*)(paramBuffer + offset) = otherParam;
offset += sizeof(float);

void* config[] = {
    CU_LAUNCH_PARAM_BUFFER_POINTER, paramBuffer,
    CU_LAUNCH_PARAM_BUFFER_SIZE, &offset,
    CU_LAUNCH_PARAM_END
};

cuLaunchKernel(function,
               gridSizeX, 1, 1,
               blockSizeX, 1, 1,
               0, NULL, NULL, config);

6.3 设置内核属性

可以在启动内核之前设置其属性：

// 设置最大动态共享内存大小
cuFuncSetAttribute(function, CU_FUNC_ATTRIBUTE_MAX_DYNAMIC_SHARED_SIZE_BYTES, 8192);

// 设置首选缓存配置
cuFuncSetAttribute(function, CU_FUNC_ATTRIBUTE_PREFERRED_SHARED_MEMORY_CARVEOUT, 100);

// 设置是否需要合作组
cuFuncSetAttribute(function, CU_FUNC_ATTRIBUTE_COOPERATIVE_LAUNCH, 1);

7. 流和事件

CUDA 流允许在 GPU 上并发执行操作，而事件用于同步和计时。

7.1 创建和使用流

// 创建流
CUstream stream1, stream2;
cuStreamCreate(&stream1, CU_STREAM_NON_BLOCKING);
cuStreamCreate(&stream2, CU_STREAM_NON_BLOCKING);

// 在流中执行异步内存操作
cuMemcpyHtoDAsync(devicePtr1, hostData1, size, stream1);
cuMemcpyHtoDAsync(devicePtr2, hostData2, size, stream2);

// 在流中启动内核
cuLaunchKernel(function1,
               gridSize, 1, 1,
               blockSize, 1, 1,
               0, stream1, args1, NULL);

cuLaunchKernel(function2,
               gridSize, 1, 1,
               blockSize, 1, 1,
               0, stream2, args2, NULL);

// 在流中执行异步内存复制回主机
cuMemcpyDtoHAsync(hostResult1, devicePtr1, size, stream1);
cuMemcpyDtoHAsync(hostResult2, devicePtr2, size, stream2);

// 同步流
cuStreamSynchronize(stream1);
cuStreamSynchronize(stream2);

// 销毁流
cuStreamDestroy(stream1);
cuStreamDestroy(stream2);

7.2 流回调

可以向流添加回调函数，在流中的操作完成时执行：

// 回调函数
void CUDA_CB streamCallback(CUstream stream, CUresult status, void* userData) {
    printf("流回调：操作完成，状态：%d，用户数据：%p\n", status, userData);
}

// 添加回调
int callbackData = 123;
cuStreamAddCallback(stream, streamCallback, &callbackData, 0);

7.3 事件管理

事件用于同步和计时 GPU 操作：

// 创建事件
CUevent start, stop;
cuEventCreate(&start, CU_EVENT_DEFAULT);
cuEventCreate(&stop, CU_EVENT_DEFAULT);

// 记录事件
cuEventRecord(start, stream);

// 执行一些操作...
cuLaunchKernel(function, gridSize, 1, 1, blockSize, 1, 1, 0, stream, args, NULL);

// 记录结束事件
cuEventRecord(stop, stream);

// 同步等待事件完成
cuEventSynchronize(stop);

// 计算经过的时间
float milliseconds = 0;
cuEventElapsedTime(&milliseconds, start, stop);
printf("内核执行时间：%.2f ms\n", milliseconds);

// 销毁事件
cuEventDestroy(start);
cuEventDestroy(stop);

7.4 流和事件的标志

创建流和事件时可以指定不同的标志：

流标志：
- CU_STREAM_DEFAULT：默认流
- CU_STREAM_NON_BLOCKING：非阻塞流
事件标志：
- CU_EVENT_DEFAULT：默认事件
- CU_EVENT_BLOCKING_SYNC：使用阻塞同步
- CU_EVENT_DISABLE_TIMING：禁用计时功能
- CU_EVENT_INTERPROCESS：支持进程间共享

8. 与 Runtime API 的互操作

CUDA Driver API 和 Runtime API 可以在同一应用程序中混合使用。

8.1 上下文互操作

// 使用 Driver API 创建上下文
CUdevice device;
CUcontext context;
cuDeviceGet(&device, 0);
cuCtxCreate(&context, 0, device);

// 使用 Runtime API 函数
// 这些函数将使用当前的 Driver API 上下文
cudaMalloc(&runtimePtr, size);
cudaMemcpy(runtimePtr, hostData, size, cudaMemcpyHostToDevice);

// 获取 Runtime API 创建的主上下文
CUcontext primaryContext;
cuDevicePrimaryCtxRetain(&primaryContext, device);

8.2 内存互操作

Driver API 和 Runtime API 分配的内存可以互操作：

// 使用 Driver API 分配内存
CUdeviceptr driverPtr;
cuMemAlloc(&driverPtr, size);

// 将 Driver API 指针转换为 Runtime API 指针
void* runtimePtr = (void*)driverPtr;
cudaMemset(runtimePtr, 0, size);

// 将 Runtime API 指针转换为 Driver API 指针
void* cudaPtr;
cudaMalloc(&cudaPtr, size);
CUdeviceptr convertedPtr = (CUdeviceptr)cudaPtr;
cuMemsetD8(convertedPtr, 0, size);

8.3 流和事件互操作

Driver API 和 Runtime API 的流和事件也可以互操作：

// 创建 Runtime API 流和事件
cudaStream_t cudaStream;
cudaEvent_t cudaEvent;
cudaStreamCreate(&cudaStream);
cudaEventCreate(&cudaEvent);

// 将 Runtime API 流和事件转换为 Driver API 流和事件
CUstream cuStream = (CUstream)cudaStream;
CUevent cuEvent = (CUevent)cudaEvent;

// 在 Driver API 流中使用 Runtime API 事件
cuEventRecord(cuEvent, cuStream);

9. Driver Entry Point Access

从 CUDA 11.3 开始，CUDA 提供了 Driver Entry Point Access API，允许开发者获取 CUDA Driver 函数的地址，并通过函数指针调用它们。

9.1 获取函数指针

// 定义函数指针类型
typedef CUresult (*cuDeviceGetCountFunc)(int*);
typedef CUresult (*cuDeviceGetFunc)(CUdevice*, int);

// 获取函数指针
cuDeviceGetCountFunc myDeviceGetCount = NULL;
cuDeviceGetFunc myDeviceGet = NULL;

cuGetProcAddress("cuDeviceGetCount", (void**)&myDeviceGetCount, 0, 0);
cuGetProcAddress("cuDeviceGet", (void**)&myDeviceGet, 0, 0);

// 使用函数指针
int deviceCount = 0;
myDeviceGetCount(&deviceCount);

CUdevice device;
myDeviceGet(&device, 0);

9.2 获取特定版本的函数

可以请求特定版本的 CUDA Driver 函数：

// 获取 CUDA 11.0 版本的函数
cuDeviceGetCountFunc myDeviceGetCount_11_0 = NULL;
cuGetProcAddress("cuDeviceGetCount", (void**)&myDeviceGetCount_11_0, 11, 0);

9.3 获取每线程默认流版本

可以获取每线程默认流版本的函数：

// 获取每线程默认流版本的 cuStreamSynchronize
typedef CUresult (*cuStreamSynchronizeFunc)(CUstream);
cuStreamSynchronizeFunc myStreamSynchronize = NULL;

cuGetProcAddress("cuStreamSynchronize", (void**)&myStreamSynchronize, 0, 0);
cuGetProcAddress("cuStreamSynchronize_ptsz", (void**)&myStreamSynchronize, 0, 0);

10. 错误处理

CUDA Driver API 使用 CUresult 枚举类型表示错误代码。每个 API 调用都会返回一个 CUresult 值，应该检查这个值以确保操作成功。

10.1 基本错误处理

CUresult result = cuMemAlloc(&devicePtr, size);
if (result != CUDA_SUCCESS) {
    const char* errorString;
    cuGetErrorString(result, &errorString);
    printf("内存分配失败：%s\n", errorString);
    return -1;
}

10.2 使用错误处理宏

为了简化错误处理，可以定义一个宏：

#define CHECK_CUDA_DRIVER_ERROR(result) { \
    if (result != CUDA_SUCCESS) { \
        const char* errorString; \
        cuGetErrorString(result, &errorString); \
        printf("CUDA Driver API 错误 (行 %d): %s\n", __LINE__, errorString); \
        return -1; \
    } \
}

// 使用宏
result = cuMemAlloc(&devicePtr, size);
CHECK_CUDA_DRIVER_ERROR(result);

10.3 常见错误及解决方法

以下是一些常见的 CUDA Driver API 错误及其解决方法：

CUDA_ERROR_INVALID_VALUE：参数无效，检查所有参数是否正确。
CUDA_ERROR_OUT_OF_MEMORY：设备内存不足，减少内存使用或使用更小的数据集。
CUDA_ERROR_NOT_INITIALIZED：CUDA 未初始化，确保在使用其他函数前调用 cuInit。
CUDA_ERROR_DEINITIALIZED：CUDA 已被反初始化，可能是由于驱动程序重新启动。
CUDA_ERROR_NO_DEVICE：没有可用的 CUDA 设备，检查设备连接和驱动程序安装。
CUDA_ERROR_INVALID_CONTEXT：上下文无效，确保当前线程有有效的上下文。
CUDA_ERROR_INVALID_HANDLE：句柄无效，检查模块、函数、流或事件句柄是否有效。
CUDA_ERROR_LAUNCH_FAILED：内核启动失败，检查内核参数和配置。
CUDA_ERROR_LAUNCH_OUT_OF_RESOURCES：资源不足，减少每个块的线程数或共享内存使用。

11. 高级主题

11.1 多 GPU 编程

CUDA Driver API 非常适合多 GPU 编程，因为它允许显式管理每个设备的上下文：

// 获取设备数量
int deviceCount = 0;
cuDeviceGetCount(&deviceCount);

// 为每个设备创建上下文和流
CUdevice devices[MAX_DEVICES];
CUcontext contexts[MAX_DEVICES];
CUstream streams[MAX_DEVICES];

for (int i = 0; i < deviceCount; i++) {
    cuDeviceGet(&devices[i], i);
    cuCtxCreate(&contexts[i], 0, devices[i]);
    cuStreamCreate(&streams[i], CU_STREAM_NON_BLOCKING);
}

// 在每个设备上执行操作
for (int i = 0; i < deviceCount; i++) {
    cuCtxPushCurrent(contexts[i]);
    
    // 分配内存、复制数据、启动内核等
    
    cuCtxPopCurrent(NULL);
}

// 同步所有设备
for (int i = 0; i < deviceCount; i++) {
    cuCtxPushCurrent(contexts[i]);
    cuStreamSynchronize(streams[i]);
    cuCtxPopCurrent(NULL);
}

// 清理资源
for (int i = 0; i < deviceCount; i++) {
    cuStreamDestroy(streams[i]);
    cuCtxDestroy(contexts[i]);
}

11.2 动态并行

CUDA 动态并行允许 GPU 线程启动新的嵌套网格：

// 在设备代码中使用动态并行
extern "C" __global__ void childKernel(int* data) {
    // 子内核代码
}

extern "C" __global__ void parentKernel(int* data) {
    // 父内核代码
    
    // 启动子内核
    childKernel<<<gridSize, blockSize>>>(data);
    
    // 同步子网格
    cudaDeviceSynchronize();
}

// 在主机代码中启动父内核
cuLaunchKernel(parentKernel, gridSize, 1, 1, blockSize, 1, 1, 0, stream, args, NULL);

11.3 图形互操作

CUDA Driver API 提供了与图形 API（如 OpenGL 和 DirectX）互操作的功能：

// OpenGL 互操作
GLuint glBuffer;
glGenBuffers(1, &glBuffer);
glBindBuffer(GL_ARRAY_BUFFER, glBuffer);
glBufferData(GL_ARRAY_BUFFER, size, NULL, GL_DYNAMIC_DRAW);

// 注册 OpenGL 缓冲区
CUgraphicsResource resource;
cuGraphicsGLRegisterBuffer(&resource, glBuffer, CU_GRAPHICS_REGISTER_FLAGS_NONE);

// 映射图形资源
CUdeviceptr devicePtr;
size_t mappedSize;
cuGraphicsMapResources(1, &resource, stream);
cuGraphicsResourceGetMappedPointer(&devicePtr, &mappedSize, resource);

// 使用映射的指针
cuMemcpyHtoD(devicePtr, hostData, size);

// 取消映射资源
cuGraphicsUnmapResources(1, &resource, stream);

// 取消注册资源
cuGraphicsUnregisterResource(resource);

11.4 持久线程

持久线程是一种高级 GPU 编程技术，它保持 GPU 线程处于活动状态，并通过工作队列分配任务：

// 持久线程内核
extern "C" __global__ void persistentKernel(volatile int* queue, int* data, int queueSize) {
    // 线程索引
    int idx = blockIdx.x * blockDim.x + threadIdx.x;
    
    // 持久循环
    while (true) {
        // 检查队列中是否有工作
        if (idx < queueSize && queue[idx] != -1) {
            int taskId = queue[idx];
            
            // 执行任务
            data[idx] = processTask(taskId);
            
            // 标记任务完成
            queue[idx] = -1;
        }
        
        // 检查是否应该退出
        if (queue[queueSize] == 1) {
            break;
        }
        
        // 让出资源
        __nanosleep(1000);
    }
}

// 主机代码
int* h_queue = (int*)malloc((queueSize + 1) * sizeof(int));
for (int i = 0; i < queueSize; i++) {
    h_queue[i] = -1;  // 初始化为无任务
}
h_queue[queueSize] = 0;  // 退出标志

CUdeviceptr d_queue, d_data;
cuMemAlloc(&d_queue, (queueSize + 1) * sizeof(int));
cuMemAlloc(&d_data, queueSize * sizeof(int));
cuMemcpyHtoD(d_queue, h_queue, (queueSize + 1) * sizeof(int));

// 启动持久内核
cuLaunchKernel(persistentKernel, gridSize, 1, 1, blockSize, 1, 1, 0, stream, args, NULL);

// 向队列添加任务
for (int task = 0; task < numTasks; task++) {
    int slot = task % queueSize;
    while (h_queue[slot] != -1) {
        // 等待槽位可用
        usleep(1000);
    }
    h_queue[slot] = task;
    cuMemcpyHtoD(d_queue + slot * sizeof(int), &h_queue[slot], sizeof(int));
}

// 设置退出标志
int exitFlag = 1;
cuMemcpyHtoD(d_queue + queueSize * sizeof(int), &exitFlag, sizeof(int));

// 等待内核完成
cuCtxSynchronize();

12. 性能优化技巧

12.1 内存优化

使用页锁定内存：对于频繁的主机-设备数据传输，使用页锁定内存可以提高传输速度。
使用统一内存：在支持统一内存的设备上，可以简化内存管理并减少显式数据传输。
批量内存操作：将多个小的内存操作合并为一个大的操作，减少调用开销。
重用内存：尽可能重用已分配的内存，而不是频繁地分配和释放。
使用异步内存操作：使用异步内存操作和流来重叠计算和数据传输。

12.2 内核优化

调整块大小：选择适当的块大小以最大化 GPU 利用率。通常，每个块 128-256 个线程是一个好的起点。
使用共享内存：利用共享内存减少全局内存访问。
避免线程分歧：尽量减少条件分支，特别是那些导致线程分歧的分支。
合理使用寄存器：平衡寄存器使用和占用率。
使用适当的数据类型：使用适合计算的数据类型，例如，对于不需要高精度的计算，使用 float 而不是 double。

12.3 并发优化

使用多个流：使用多个流实现并发执行。
重叠数据传输和计算：在一个流中执行计算，同时在另一个流中传输数据。
使用事件进行精确同步：使用事件进行流之间的精确同步，而不是全局同步。
使用异步内存操作：使用异步内存操作减少主机等待时间。

12.4 多 GPU 优化

负载均衡：在多个 GPU 之间均匀分配工作。
最小化设备间通信：减少 GPU 之间的数据传输。
使用点对点传输：在支持的设备上，使用点对点传输直接在 GPU 之间传输数据。
使用 GPU 亲和性：考虑 GPU 之间的物理连接，优先使用直接连接的 GPU。

13. 调试和分析

13.1 错误检查和调试

检查每个 API 调用的返回值：始终检查 CUDA Driver API 函数的返回值。
使用 CUDA-GDB：使用 CUDA-GDB 调试 GPU 代码。
使用 CUDA Memcheck：使用 CUDA Memcheck 检测内存错误。
启用设备同步调试：设置环境变量 CUDA_LAUNCH_BLOCKING=1 使内核启动变为同步，便于调试。

13.2 性能分析

使用 NVIDIA Nsight：使用 NVIDIA Nsight 系统和计算分析器进行性能分析。
使用 NVIDIA Visual Profiler：使用 NVIDIA Visual Profiler 分析应用程序性能。
使用事件计时：使用 CUDA 事件测量内核执行时间和内存传输时间。
使用 CUPTI：使用 CUDA Profiling Tools Interface (CUPTI) 收集详细的性能指标。

13.3 常见性能瓶颈

内存带宽：全局内存访问通常是性能瓶颈。使用共享内存、纹理内存和常量内存减少全局内存访问。
计算密度：确保内核有足够的计算来隐藏内存延迟。
线程分歧：避免导致线程分歧的条件分支。
同步点：减少同步点，如 __syncthreads() 和全局同步。
主机-设备数据传输：最小化主机和设备之间的数据传输。

14. 实际应用案例

14.1 图像处理

// 图像处理内核的 PTX 代码
const char* imageProcPTX = "...";  // PTX 代码字符串

// 主机代码
CUmodule module;
CUfunction gaussianBlurKernel;
cuModuleLoadData(&module, imageProcPTX);
cuModuleGetFunction(&gaussianBlurKernel, module, "gaussianBlur");

// 分配内存并加载图像
// ...

// 设置内核参数
void* args[] = { &d_input, &d_output, &width, &height, &sigma };

// 配置执行参数
int blockSizeX = 16;
int blockSizeY = 16;
int gridSizeX = (width + blockSizeX - 1) / blockSizeX;
int gridSizeY = (height + blockSizeY - 1) / blockSizeY;

// 启动内核
cuLaunchKernel(gaussianBlurKernel,
               gridSizeX, gridSizeY, 1,
               blockSizeX, blockSizeY, 1,
               0, NULL, args, NULL);

// 同步并获取结果
cuCtxSynchronize();
cuMemcpyDtoH(h_output, d_output, width * height * sizeof(float));

14.2 科学计算

// N 体模拟内核的 PTX 代码
const char* nbodyPTX = "...";  // PTX 代码字符串

// 主机代码
CUmodule module;
CUfunction nbodyKernel;
cuModuleLoadData(&module, nbodyPTX);
cuModuleGetFunction(&nbodyKernel, module, "nbodySimulation");

// 分配内存并初始化粒子
// ...

// 创建 CUDA 流
CUstream stream;
cuStreamCreate(&stream, CU_STREAM_NON_BLOCKING);

// 创建事件用于计时
CUevent start, stop;
cuEventCreate(&start, CU_EVENT_DEFAULT);
cuEventCreate(&stop, CU_EVENT_DEFAULT);

// 模拟循环
for (int step = 0; step < numSteps; step++) {
    // 设置内核参数
    void* args[] = { &d_pos, &d_vel, &d_force, &numParticles, &deltaTime };
    
    // 记录开始时间
    cuEventRecord(start, stream);
    
    // 启动内核
    cuLaunchKernel(nbodyKernel,
                   gridSize, 1, 1,
                   blockSize, 1, 1,
                   0, stream, args, NULL);
    
    // 记录结束时间
    cuEventRecord(stop, stream);
    
    // 等待内核完成
    cuEventSynchronize(stop);
    
    // 计算经过的时间
    float milliseconds = 0;
    cuEventElapsedTime(&milliseconds, start, stop);
    printf("步骤 %d: %.2f ms\n", step, milliseconds);
    
    // 可选：将结果复制回主机进行可视化
    if (step % visualizeInterval == 0) {
        cuMemcpyDtoHAsync(h_pos, d_pos, numParticles * sizeof(float4), stream);
        cuStreamSynchronize(stream);
        visualizeParticles(h_pos, numParticles);
    }
}

// 清理资源
cuEventDestroy(start);
cuEventDestroy(stop);
cuStreamDestroy(stream);

14.3 深度学习

// 卷积神经网络内核的 PTX 代码
const char* cnnPTX = "...";  // PTX 代码字符串

// 主机代码
CUmodule module;
CUfunction convKernel, reluKernel, poolKernel, fcKernel;
cuModuleLoadData(&module, cnnPTX);
cuModuleGetFunction(&convKernel, module, "convolution");
cuModuleGetFunction(&reluKernel, module, "relu");
cuModuleGetFunction(&poolKernel, module, "maxPooling");
cuModuleGetFunction(&fcKernel, module, "fullyConnected");

// 创建多个流实现并行处理
CUstream streams[NUM_STREAMS];
for (int i = 0; i < NUM_STREAMS; i++) {
    cuStreamCreate(&streams[i], CU_STREAM_NON_BLOCKING);
}

// 前向传播
for (int i = 0; i < batchSize; i++) {
    int streamIdx = i % NUM_STREAMS;
    
    // 卷积层
    void* convArgs[] = { &d_input[i], &d_conv1Weights, &d_conv1Bias, &d_conv1Output[i], &inputDim, &conv1Dim };
    cuLaunchKernel(convKernel, convGridSize, 1, 1, convBlockSize, 1, 1, 0, streams[streamIdx], convArgs, NULL);
    
    // ReLU 激活
    void* reluArgs[] = { &d_conv1Output[i], &d_relu1Output[i], &conv1Size };
    cuLaunchKernel(reluKernel, reluGridSize, 1, 1, reluBlockSize, 1, 1, 0, streams[streamIdx], reluArgs, NULL);
    
    // 最大池化
    void* poolArgs[] = { &d_relu1Output[i], &d_pool1Output[i], &conv1Dim, &pool1Dim };
    cuLaunchKernel(poolKernel, poolGridSize, 1, 1, poolBlockSize, 1, 1, 0, streams[streamIdx], poolArgs, NULL);
    
    // 全连接层
    void* fcArgs[] = { &d_pool1Output[i], &d_fcWeights, &d_fcBias, &d_fcOutput[i], &pool1Size, &fcSize };
    cuLaunchKernel(fcKernel, fcGridSize, 1, 1, fcBlockSize, 1, 1, 0, streams[streamIdx], fcArgs, NULL);
}

// 同步所有流
for (int i = 0; i < NUM_STREAMS; i++) {
    cuStreamSynchronize(streams[i]);
}

// 清理资源
for (int i = 0; i < NUM_STREAMS; i++) {
    cuStreamDestroy(streams[i]);
}

15. 与其他技术的集成

15.1 与 OpenGL 集成

// 初始化 OpenGL
// ...

// 初始化 CUDA
cuInit(0);
cuDeviceGet(&device, 0);
cuGLCtxCreate(&context, CU_GL_MAP_HOST_MEMORY, device);

// 创建 OpenGL 缓冲区
GLuint vbo;
glGenBuffers(1, &vbo);
glBindBuffer(GL_ARRAY_BUFFER, vbo);
glBufferData(GL_ARRAY_BUFFER, size, NULL, GL_DYNAMIC_DRAW);

// 注册 OpenGL 缓冲区
CUgraphicsResource resource;
cuGraphicsGLRegisterBuffer(&resource, vbo, CU_GRAPHICS_REGISTER_FLAGS_WRITE_DISCARD);

// 映射资源
cuGraphicsMapResources(1, &resource, 0);
CUdeviceptr devicePtr;
size_t mappedSize;
cuGraphicsResourceGetMappedPointer(&devicePtr, &mappedSize, resource);

// 启动内核修改缓冲区
void* args[] = { &devicePtr, &width, &height };
cuLaunchKernel(updateVerticesKernel, gridSize, 1, 1, blockSize, 1, 1, 0, NULL, args, NULL);
cuCtxSynchronize();

// 取消映射资源
cuGraphicsUnmapResources(1, &resource, 0);

// 使用 OpenGL 渲染
glBindBuffer(GL_ARRAY_BUFFER, vbo);
glVertexPointer(3, GL_FLOAT, 0, 0);
glEnableClientState(GL_VERTEX_ARRAY);
glDrawArrays(GL_POINTS, 0, numVertices);
glDisableClientState(GL_VERTEX_ARRAY);

// 清理资源
cuGraphicsUnregisterResource(resource);
glDeleteBuffers(1, &vbo);
cuCtxDestroy(context);

15.2 与 OpenCL 集成

// 初始化 OpenCL
// ...

// 初始化 CUDA
cuInit(0);
cuDeviceGet(&device, 0);
cuCtxCreate(&context, 0, device);

// 创建 OpenCL 内存对象
cl_mem clBuffer = clCreateBuffer(clContext, CL_MEM_READ_WRITE, size, NULL, &clErr);

// 在 OpenCL 中处理数据
// ...

// 将 OpenCL 数据导出到主机
clEnqueueReadBuffer(clQueue, clBuffer, CL_TRUE, 0, size, hostData, 0, NULL, NULL);

// 将数据传输到 CUDA
CUdeviceptr cudaBuffer;
cuMemAlloc(&cudaBuffer, size);
cuMemcpyHtoD(cudaBuffer, hostData, size);

// 在 CUDA 中处理数据
void* args[] = { &cudaBuffer, &dataSize };
cuLaunchKernel(processDataKernel, gridSize, 1, 1, blockSize, 1, 1, 0, NULL, args, NULL);
cuCtxSynchronize();

// 将结果传回主机
cuMemcpyDtoH(hostResult, cudaBuffer, size);

// 将结果导入 OpenCL
clEnqueueWriteBuffer(clQueue, clOutputBuffer, CL_TRUE, 0, size, hostResult, 0, NULL, NULL);

// 清理资源
cuMemFree(cudaBuffer);
clReleaseMemObject(clBuffer);
clReleaseMemObject(clOutputBuffer);
cuCtxDestroy(context);

15.3 与 DirectX 集成

// 初始化 DirectX
// ...

// 初始化 CUDA
cuInit(0);
cuDeviceGet(&device, 0);
cuD3D11CtxCreate(&context, &device, CU_CTX_SCHED_AUTO, d3dDevice);

// 创建 DirectX 缓冲区
D3D11_BUFFER_DESC bufferDesc;
// 设置缓冲区描述...
ID3D11Buffer* d3dBuffer;
d3dDevice->CreateBuffer(&bufferDesc, NULL, &d3dBuffer);

// 注册 DirectX 缓冲区
CUgraphicsResource resource;
cuGraphicsD3D11RegisterResource(&resource, d3dBuffer, CU_GRAPHICS_REGISTER_FLAGS_NONE);

// 映射资源
cuGraphicsMapResources(1, &resource, 0);
CUdeviceptr devicePtr;
size_t mappedSize;
cuGraphicsResourceGetMappedPointer(&devicePtr, &mappedSize, resource);

// 启动内核修改缓冲区
void* args[] = { &devicePtr, &width, &height };
cuLaunchKernel(updateVerticesKernel, gridSize, 1, 1, blockSize, 1, 1, 0, NULL, args, NULL);
cuCtxSynchronize();

// 取消映射资源
cuGraphicsUnmapResources(1, &resource, 0);

// 使用 DirectX 渲染
// ...

// 清理资源
cuGraphicsUnregisterResource(resource);
d3dBuffer->Release();
cuCtxDestroy(context);