写cuda代码的过程
核函数定义(本例子中被cpu调用)
定义数组长度,以及需要运算的数组
定义为全局变量 或者定义为const 常量值,—才可用到数组里的值里去
普通的定义 的 给数组赋值,其实是在host上进行赋值初始化的
在device上定义变量 用cudaMalloc函数分配内存
进行内存拷贝,用cudaMemcpy函数把数据从host传到device
调用核函数 进行参数配置 如果是一维可以直接用threadIdx.x做数据索引
调用格式为 函数名 << <size1, size2 >> > (参数1, 参数2, 参数3, 参数4);
size1个线程块,每个线程块上由size2条线程
(其他的还不清楚 一共有15种索引方式,如果以后懂了会写写记录下来)
进行结果拷贝,用cudaMemcpy函数把数据从device传到host
打印结果
释放内存
是用的其他文章的代码,可惜链接找不到了,等找到再放上,实在冒犯原作者了,先在这里道个歉,以后碰到会加上的
#include<cuda_runtime.h>
#include<device_launch_parameters.h>
#include<iostream>
using namespace std;
//线程执行的代码
__global__ void vector_add(float* a, float* b, float* c, int n) {
int tid = threadIdx.x;
if (tid < n) {
c[tid] = a[tid] + b[tid];
}
}
int main() {
//定义数组长度,以及需要运算的数组
//定义为全局变量 或者定义为const 常量值
const int n = 16;
float a[n], b[n], c[n];
//给数组赋值 其实是在host上进行赋值初始化的
for (int i = 0; i < n; i++) {
a[i] = b[i] = i;
}
//在device上定义分配内存
float* d_a, * d_b, * d_c;
cudaMalloc((void**)&d_a, n * sizeof(float));
cudaMalloc((void**)&d_b, n * sizeof(float));
cudaMalloc((void**)&d_c, n * sizeof(float));
//从host拷贝数据到device
cudaMemcpy(d_a, a, n * sizeof(float), cudaMemcpyHostToDevice);
cudaMemcpy(d_b, b, n * sizeof(float), cudaMemcpyHostToDevice);
//写核函数 调用核函数
//参数配置
dim3 grid(1, 1, 1), block(n, 1, 1);
vector_add << <grid, block >> > (d_a, d_b, d_c, n);
//将结果拷贝回主机
cudaMemcpy(c, d_c, n * sizeof(float), cudaMemcpyDeviceToHost);
//打印结果
//float类型的变量在printf函数中是自动转换成了double类型的变量的,这样的话,float变量就不再是4个字节,而是8个字节了
for (int i = 0; i < n; i++) {
printf("%f\n", c[i]);
}
cudaFree(d_a);
cudaFree(d_b);
cudaFree(d_c);
free(a);
free(b);
free(c);
return(0);
}