CUDA编程指南学习3.2.2

最新推荐文章于 2024-04-27 17:58:24 发布

qq_33182722

最新推荐文章于 2024-04-27 17:58:24 发布

阅读量128

点赞数

分类专栏： Cuda编程文章标签： cuda 9.0 编程指南代码实现

本文链接：https://blog.csdn.net/qq_33182722/article/details/82753947

版权

Cuda编程专栏收录该内容

3 篇文章 0 订阅

订阅专栏

CUDA编程指南学习3.2.2
#CUDA C 版本
本文依照CUDA C编程指南9.0 3.2.2节内容进行代码完善

#代码实现&理解

**
//利用GPU实现乘法
#include
#include <stdlib.h>
#include <stdio.h>
//Device code
global void VecMuti(float *A,float *B,float *C,int N)
{
int i = blockDim.x * blockIdx.x +threadIdx.x;
if(i<N)
C[i] = A[i] * B[i];
}

//Host code
int main()
{
int N = 10;
size_t size = N*sizeof(float);

//Alloate input vectors h_A in host memory
float * h_A = (float*)malloc(size);
float * h_B = (float*)malloc(size);
float * h_C = (float*)malloc(size);
//Initialize input vectors
for(int i = 0;i<N;i++)
{
	h_A[i] = i;
	h_B[i] = -i;
}
//Allocate vectors in device memory
float * d_A;
float * d_B;
float * d_C;
cudaMalloc(&d_A,size);
cudaMalloc(&d_B,size);
cudaMalloc(&d_C,size);

//copy Host Memory to Device Memory
cudaMemcpy(d_A,h_A,size,cudaMemcpyHostToDevice);
cudaMemcpy(d_B,h_B,size,cudaMemcpyHostToDevice);

//Invoke kernel
int threadsPerBlock = 256;
int blocksPerGrid =
		(N+threadsPerBlock-1)/threadsPerBlock;
VecMuti<<<blocksPerGrid,threadsPerBlock>>>(d_A,d_B,d_C,N);

//copy results from Device memory to Host memory
cudaMemcpy(h_C,d_C,size,cudaMemcpyDeviceToHost);

//Display results
for(int i = 0;i< N;i++)
{
	printf("%d-----%f\n",i,h_C[i]);//在#include <stdio.h>文件中
}
//free Device memory
cudaFree(d_A);
cudaFree(d_B);
cudaFree(d_C);

//free Host memory;
free(h_A);
free(h_B);
free(h_C);

}

qq_33182722

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程指南学习3.2.2

CUDA编程指南学习3.2.2#CUDA C 版本本文依照CUDA C编程指南9.0 3.2.2节内容进行代码完善#代码实现&amp;amp;amp;amp;理解利用GPU实现乘法#include #include &amp;amp;amp;lt;stdlib.h&amp;amp;amp;gt;#include &amp;amp;amp;lt;stdio.h&amp;amp;amp;gt;//Device codeglob
复制链接

扫一扫