新手写cuda c的过程(例子为数组相加)

写cuda代码的过程
核函数定义(本例子中被cpu调用)
定义数组长度,以及需要运算的数组
定义为全局变量 或者定义为const 常量值,—才可用到数组里的值里去
普通的定义 的 给数组赋值,其实是在host上进行赋值初始化的

在device上定义变量 用cudaMalloc函数分配内存
进行内存拷贝,用cudaMemcpy函数把数据从host传到device
调用核函数 进行参数配置 如果是一维可以直接用threadIdx.x做数据索引
调用格式为 函数名 << <size1, size2 >> > (参数1, 参数2, 参数3, 参数4);
size1个线程块,每个线程块上由size2条线程
(其他的还不清楚 一共有15种索引方式,如果以后懂了会写写记录下来)
进行结果拷贝,用cudaMemcpy函数把数据从device传到host
打印结果
释放内存

是用的其他文章的代码,可惜链接找不到了,等找到再放上,实在冒犯原作者了,先在这里道个歉,以后碰到会加上的

#include<cuda_runtime.h>
#include<device_launch_parameters.h>
#include<iostream>

using namespace std;

//线程执行的代码
__global__ void vector_add(float* a, float* b, float* c, int n) {
	int tid = threadIdx.x;
	if (tid < n) {
		c[tid] = a[tid] + b[tid];
	}
}

int main() {
	//定义数组长度,以及需要运算的数组
	//定义为全局变量 或者定义为const 常量值
	const int n = 16;
	float a[n], b[n], c[n];
	//给数组赋值 其实是在host上进行赋值初始化的
	for (int i = 0; i < n; i++) {
		a[i] = b[i] = i;
	}

	//在device上定义分配内存
	float* d_a, * d_b, * d_c;
	cudaMalloc((void**)&d_a, n * sizeof(float));
	cudaMalloc((void**)&d_b, n * sizeof(float));
	cudaMalloc((void**)&d_c, n * sizeof(float));
	//从host拷贝数据到device
	cudaMemcpy(d_a, a, n * sizeof(float), cudaMemcpyHostToDevice);
	cudaMemcpy(d_b, b, n * sizeof(float), cudaMemcpyHostToDevice);
	//写核函数 调用核函数
	//参数配置
	dim3 grid(1, 1, 1), block(n, 1, 1);
	vector_add << <grid, block >> > (d_a, d_b, d_c, n);
	//将结果拷贝回主机
	cudaMemcpy(c, d_c, n * sizeof(float), cudaMemcpyDeviceToHost);
	//打印结果
	//float类型的变量在printf函数中是自动转换成了double类型的变量的,这样的话,float变量就不再是4个字节,而是8个字节了
	for (int i = 0; i < n; i++) {
		printf("%f\n", c[i]);
	}
    cudaFree(d_a);
	cudaFree(d_b);
	cudaFree(d_c);
	free(a);
	free(b);
	free(c);

	return(0);
}

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值