CUDA动态库封装以及调用
参考:http://blog.sina.com.cn/s/blog_618941f701016d26.html
通过将CUDA相关计算操作放在库中,方便在项目中调用,省去了每次编译cu文件的麻烦,也便于集成到其他平台上。
本文配置:VS2015 CUDA8.0
一、封装CUDA动态库
主要步骤:修改自定义方式、设置cu文件项类型为CDUA CC++ ,添加依赖库cudart.lib.
1、创建一个动态库,这里建的库是x86的,也可以更改为x64.
2、添加cu文件
3、源程序内容
CudaDll32.h
- // 下列 ifdef 块是创建使从 DLL 导出更简单的
- // 宏的标准方法。此 DLL 中的所有文件都是用命令行上定义的 CUDADLL32_EXPORTS
- // 符号编译的。在使用此 DLL 的
- // 任何其他项目上不应定义此符号。这样,源文件中包含此文件的任何其他项目都会将
- // CUDADLL32_API 函数视为是从 DLL 导入的,而此 DLL 则将用此宏定义的
- // 符号视为是被导出的。
- #ifdef CUDADLL32_EXPORTS
- #define CUDADLL32_API __declspec(dllexport)
- #else
- #define CUDADLL32_API __declspec(dllimport)
- #endif
- extern "C" CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size);
- #include "cuda_runtime.h"
- #include "device_launch_parameters.h"
- #include "CudaDll32.h"
- //CUDA核函数
- __global__ void addKernel(int *c, const int *a, const int *b)
- {
- int i = threadIdx.x;
- c[i] = a[i] + b[i];
- }
- //向量相加
- CUDADLL32_API int vectorAdd(int c[], int a[], int b[], int size)
- {
- int result = -1;
- int *dev_a = 0;
- int *dev_b = 0;
- int *dev_c = 0;
- cudaError_t cudaStatus;
- // 选择用于运行的GPU
- cudaStatus = cudaSetDevice(0);
- if (cudaStatus != cudaSuccess) {
- result = 1;
- goto Error;
- }
- // 在GPU中为变量dev_a、dev_b、dev_c分配内存空间.
- cudaStatus = cudaMalloc((void**)&dev_c, size * sizeof(int));
- if (cudaStatus != cudaSuccess) {
- result = 2;
- goto Error;
- }
- cudaStatus = cudaMalloc((void**)&dev_a, size * sizeof(int));
- if (cudaStatus != cudaSuccess) {
- result = 3;
- goto Error;
- }
- cudaStatus = cudaMalloc((void**)&dev_b, size * sizeof(int));
- if (cudaStatus != cudaSuccess) {
- result = 4;
- goto Error;
- }
- // 从主机内存复制数据到GPU内存中.
- cudaStatus = cudaMemcpy(dev_a, a, size * sizeof(int), cudaMemcpyHostToDevice);
- if (cudaStatus != cudaSuccess) {
- result = 5;
- goto Error;
- }
- cudaStatus = cudaMemcpy(dev_b, b, size * sizeof(int), cudaMemcpyHostToDevice);
- if (cudaStatus != cudaSuccess) {
- result = 6;
- goto Error;
- }
- // 启动GPU内核函数
- addKernel << <1, size >> >(dev_c, dev_a, dev_b);
- // 采用cudaDeviceSynchronize等待GPU内核函数执行完成并且返回遇到的任何错误信息
- cudaStatus = cudaDeviceSynchronize();
- if (cudaStatus != cudaSuccess) {
- result = 7
- goto Error
- }
- // 从GPU内存中复制数据到主机内存中
- cudaStatus = cudaMemcpy(c, dev_c, size * sizeof(int), cudaMemcpyDeviceToHost);
- if (cudaStatus != cudaSuccess) {
- result = 8;
- goto Error;
- }
- result = 0;
- // 重置CUDA设备,在退出之前必须调用cudaDeviceReset
- cudaStatus = cudaDeviceReset();
- if (cudaStatus != cudaSuccess) {
- return 9;
- }
- Error:
- //释放设备中变量所占内存
- cudaFree(dev_c);
- cudaFree(dev_a);
- cudaFree(dev_b);
- return result;
- }
5、修改cu文件的项类型
6、添加链接器的附加依赖项 cudart.lib
7、生成DLL文件
二、调用动态库
创建一个控制台工程,调用库三步骤:
调用源代码:包含头文件、并把dll文件拷贝到可行性目录下
- // CallCudaDll32.cpp : 定义控制台应用程序的入口点。
- //
- #include "stdafx.h"
- #include "CudaDll32.h"
- int main()
- {
- const int arraySize = 5;
- int a[arraySize] = { 11, 22, 33, 44, 55 };
- int b[arraySize] = { 10, 20, 30, 40, 50 };
- int c[arraySize] = { 0 };
- // Add vectors in parallel.
- int number = vectorAdd(c, a, b, arraySize);
- printf("{11,22,33,44,55} + {10,20,30,40,50} = {%d,%d,%d,%d,%d}\n",
- c[0], c[1], c[2], c[3], c[4]);
- printf("调用CUDA成功!\n");
- return 0;
- }