CUDA只是利用GPU的优点去处理CPU不能快速处理的程序。在大型工程中,CUDA的代码量不会大于1%,甚至更少,但是为了使用CUDA,就必须把原先大型功能的很多编译环境甚至编译条件都要更改,这样做是非常不值得的。C++代码本身和CUDA兼容也不好,所以本文针对以上问题,介绍一个新的方法。
大型工程处需要用的函数,修改成便于CUDA运行的函数接口,将所有CUDA相关的代码写好生成dll,方法如下
新建项目
确定
下一步
.cuh头文件添加如下代码
#include "cuda_runtime.h"
#include "device_launch_parameters.h"
//这两个头文件是CUDA必备,但是你右键->打开文档“”的时候VS却不能找到。不需要你手动设置路径,只需要在右键工程->生成自定义中,选择CUDA,VS即可自动找到包含路径
#include <stdio.h>
__global__ void deal_data(int*ratio_counter,int *vert_subsampling,int *remaining_lines);
extern "C" int __declspec(dllexport)__stdcall compute(int*ratio_counter,int *vert_subsampling,int *remaining_lines,intnumber);
.cu源文件添加如下代码
#include "compute.cuh"
__global__ void deal_data(int*ratio_counter,int *vert_subsampling,int *remaining_lines)
{
int index = threadIdx.x;
if(index < blockDim.x)
{
if (ratio_counter[index] < 0)
{
ratio_counter[index]+= vert_subsampling[index];
remaining_lines[index]--;
}
}
}
extern "C" int __declspec(dllexport)__stdcall compute(int*ratio_counter,int *vert_subsampling,int *remaining_lines,intnumber)
{
/* 计算个int型需要的空间*/
int size = number * sizeof(int);
/* 在GPU上分配同样大小的三个数组*/
int* d_a;
int* d_b;
int* d_c;
cudaMalloc((void**)&d_a, size);
cudaMalloc((void**)&d_b, size);
cudaMalloc((void**)&d_c, size);
/* 把本地的数组拷贝进GPU内存*/
cudaMemcpy(d_a, ratio_counter, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_b, vert_subsampling, size, cudaMemcpyHostToDevice);
cudaMemcpy(d_c, remaining_lines, size, cudaMemcpyHostToDevice);
/* 定义一个GPU运算块由temp.num_components个运算线程组成*/
dim3 DimBlock = number;
/* 通知GPU用个线程执行函数deal_data */
deal_data<<<1,DimBlock>>>(d_a, d_b, d_c);
/* 将GPU运算完的结果复制回本地*/
cudaMemcpy(ratio_counter, d_a, size, cudaMemcpyDeviceToHost);
cudaMemcpy(vert_subsampling,d_b, size, cudaMemcpyDeviceToHost);
cudaMemcpy(remaining_lines,d_c, size, cudaMemcpyDeviceToHost);
/* 释放GPU的内存*/
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
return 0;
}
在生成选项下点击生成解决方案
成功之后在Debug目录下会生成
好了,此时调用
extern "C" int __declspec(dllexport)__stdcall compute(int*ratio_counter,int *vert_subsampling,int *remaining_lines,intnumber);
这个函数就和普通的调用一样了
具体方法简单写了
打开工程
先把生成的lib放到工程目录下
#pragma comment(lib,"cudazxdll.lib")
extern "C" int __declspec(dllexport)__stdcall compute(int*ratio_counter,int *vert_subsampling,int *remaining_lines,intnumber);
加入这两行代码
编译即可。
将生成的.dll和生成的exe放到同一目录下即可运行。
这样就在不修改原有大型功能的情况下,直接使用CUDA了