写cuda代码的过程
核函数定义(本例子中被cpu调用)
定义数组长度,以及需要运算的数组
定义为全局变量 或者定义为const 常量值,—才可用到数组里的值里去
普通的定义 的 给数组赋值,其实是在host上进行赋值初始化的
在device上定义变量 用cudaMalloc函数分配内存
进行内存拷贝,用cudaMemcpy函数把数据从host传到device
调用核函数 进行参数配置 如果是一维可以直接用threadIdx.x做数据索引
调用格式为 函数名 << <size1, size2 >> > (参数1, 参数2, 参数3, 参数4);
size1个线程块,每个线程块上由size2条线程
(其他的还不清楚 一共有15种索引方式,如果以后懂了会写写记录下来)
进行结果拷贝,用cudaMemcpy函数把数据从device传到host
打印结果
释放内存
是用的其他文章的代码,可惜链接找不到了,等找到再放上,实在冒犯原作者了,先在这里道个歉,以后碰到会加上的
#include<cuda_runtime.h>
#include<device_launch_parameters.h>
#include<iostream>
using namespace std;
//线程执行的代码
__global__ void vector_add(float* a, float* b, float* c, int n) {
int tid = threadIdx.x;
if (tid < n) {
c[tid]