《GPU高性能编程CUDA实战》《学习笔记二》

最新推荐文章于 2023-04-30 21:01:39 发布

soldier123333

最新推荐文章于 2023-04-30 21:01:39 发布

阅读量275

点赞数

分类专栏： CUDA编程

本文链接：https://blog.csdn.net/weixin_36340947/article/details/76998105

版权

CUDA编程专栏收录该内容

12 篇文章 1 订阅

订阅专栏

在GPU上对任意长度的矢量求和

//**************在GPU上对任意长度的矢量求和**********//
/* 				时间：2017-8-9     页数：46
				参考书：《GPU高性能编程CUDA实战》	*/
#include <iostream>
#include <stdio.h>

#define N 33*1024

using namespace std;

__global__ void add(int *a,int *b,int *c);

int main()
{
	int a[N],b[N],c[N];
	int *dev_a,*dev_b,*dev_c;

	//在GPU上分配内存
	cudaMalloc((void**)&dev_a,N*sizeof(int));
	cudaMalloc((void**)&dev_b,N*sizeof(int));
	cudaMalloc((void**)&dev_c,N*sizeof(int));

	//在CPU上为数组"a""b"赋值
	for(int i=0;i<N;i++)
	{
		a[i]=i;
		b[i]=i*i;
	}

	//将数组“a”"b"复制到GPU
	cudaMemcpy(dev_a,a,N*sizeof(int),cudaMemcpyHostToDevice);
	cudaMemcpy(dev_b,b,N*sizeof(int),cudaMemcpyHostToDevice);

	add<<<128,128>>>(dev_a,dev_b,dev_c);

	//将数组“c”从GPU赋值到CPU
	cudaMemcpy(c,dev_c,N*sizeof(int),cudaMemcpyDeviceToHost);

	//验证GPU确实完成了我们要求的工作
	bool success = true;
	for(int i=0;i<N;i++)
	{
		if((a[i]+b[i])!=c[i])
		{
			printf("Error:%d + %d != %d\n",a[i],b[i],c[i]);
			success = false;
		}
	}
	if(success)
		printf("We did it!\n");

	//释放在GPU上分配的内存
	cudaFree(dev_a);
	cudaFree(dev_b);
	cudaFree(dev_c);

	return 0;
}

__global__ void add(int *a,int *b,int *c)
{
	int tid=threadIdx.x+blockIdx.x*blockDim.x;//线程的起始索引,block是一维的
	while(tid<N)//这里要用while，表示循环迭代，不能用if，不然运行完这一次，就直接跳出循环
	{
		c[tid]=a[tid]+b[tid];
		tid += blockDim.x*gridDim.x;
		//索引的递增步长为线程格中正在运行的线程数量，加上这一句是因为：总的thread数量为128*128=16384,而N=33*1024=33792,如果每个线程计算一个数，那么我们的线程数量不够，所以要加上递增步长。
	}
}