本次实验主要是实现vector复制到cuda中,一般教材上都是使用指针,很是繁琐,而且STL优秀的算法不太容易使用。为了实现C++ STL的优秀算法和cuda的并行计算能力,二设计的本次实验。
一下代码仅供提供思路。
#include <cuda_runtime.h>
#include <iostream>
#include <vector>
#include <algorithm>
#define DATATYPE float
__global__ void vector_add_gpu_1(DATATYPE *a,DATATYPE *b,DATATYPE *c,int n)
{
for(int i = 0; i < n; ++i)
{
c[i] = a[i] + b[i];
}
}
int main()
{
int n;
std::cout << "请输入数字" << std::endl;
std::cin >> n;
DATATYPE *d_a,*d_b,*d_c,*h_c;
h_c = (float*)malloc(n*sizeof(float));
std::vector<DATATYPE> h_a;
std::vector<DATATYPE> h_b;
std::cout << "正在赋值" << std::endl;
for(int i = 0;i < n;++i)
{
h_a.push_back(i);
h_b.push_back(i);
std::cout << "h_a[" << i << "] = " << h_a[i] << "\t";
std::cout << "h_b[" << i << "] = " << h_b[i] << "\t";
}
std::cout << std::endl;
std::cout << "GPU运算中" << std::endl;
cudaMalloc((void**)&d_a,sizeof(DATATYPE) * n);
cudaMalloc((void**)&d_b,sizeof(DATATYPE) * n);
cudaMalloc((void**)&d_c,sizeof(DATATYPE) * n);
cudaMemcpy(d_a,&h_a[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);
cudaMemcpy(d_b,&h_b[0],sizeof(DATATYPE) * n,cudaMemcpyHostToDevice);
vector_add_gpu_1<<<1,1>>>(d_a,d_b,d_c,n);
cudaMemcpy(h_c,d_c,sizeof(DATATYPE) * n,cudaMemcpyDeviceToHost);
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
std::cout << "运算完成,输出。" << std::endl;
for(int i = 0;i < n;++i)
{
std::cout << "h_c[" << i << "] = " << h_c[i] << std::endl;
}
return 0;
}