cuda学习心得--2.真正入手利用GPU计算加法

cuda学习心得--1.一切从hello world开始 这篇文章并没有利用GPU来计算。现在才开始讲述怎么利用GPU来计算。先看代码:

 
  
1 #include " cuda_runtime.h "
2 #include " device_launch_parameters.h "
3 #include < iostream >
4 using namespace std;
5 // 这里是__global__是让代码在GPU里执行,
6 __global__ void add( int * c, const int a, const int b)
7 {
8 * c = a + b;
9 }
10
11 int main()
12 {
13 int * dev_c ; // 声明指针,用于GPU分配地址
14 int c ; // 把GPU计算好的结果存放到内存里,
15 cudaError_t cudaStatus; // 定义状态
16 // 通过cudaMalloc分配地址,不能对这个内存地址dev_c进行直接引用操作
17 cudaStatus = cudaMalloc(( void ** ) & dev_c, sizeof ( int ));
18 // 如果不成功,就退出
19 if ( cudaStatus != cudaSuccess )
20 {
21 cout << " error at cudaMalloc " << endl;
22 return - 1 ;
23 }
24 // 调用add函数,在GPU执行
25 add <<< 1 , 1 >>> (dev_c, 1 , 2 );
26
27 // 把GPU执行的结果放到c里去,必须要通过cudaMemcpy来从GPU复制到内存,而不能直接用dev_c。
28 cudaStatus = cudaMemcpy( & c, dev_c, sizeof ( int ), cudaMemcpyDeviceToHost );
29 // 如果不成功,就退出
30 if ( cudaStatus != cudaSuccess )
31 {
32 cout << " error at cudaMemcpy " << endl;
33 return - 1 ;
34 }
35 // 验证计算结果
36 cout << " 1 + 2 = " << c << endl;
37 // 释放分配的空间
38 cudaFree(dev_c);
39
40 return 0 ;
41 }

在这里,能看到CUDA C和C/C++的不同地方:

1.我们看到add()这个函数前面加了一个__global__这个关键字,这个关键字将告诉编译器,函数应该编译在设备上运行,而不是在主机上运行。

2.使用了cudaMalloc来分配空间,所分配得到指针传递给在设备上执行的函数,用来cudaFree施放分配的空间。如果想把值在设备和主机上传递则用了cudaMemcpy这个函数,第四个参数表示这个值是从哪里到哪里,共有这几个值,如下:

 
  
1 /* *
2 * CUDA memory copy types
3 */
4 /* DEVICE_BUILTIN */
5 enum cudaMemcpyKind
6 {
7 cudaMemcpyHostToHost = 0 , /* *< Host -> Host */
8 cudaMemcpyHostToDevice = 1 , /* *< Host -> Device */
9 cudaMemcpyDeviceToHost = 2 , /* *< Device -> Host */
10 cudaMemcpyDeviceToDevice = 3 , /* *< Device -> Device */
11 cudaMemcpyDefault = 4 /* *< Default based unified virtual address space */
12 };

通常只用了cudaMemcpyHostToDevice 和cudaMemcpyDeviceToHost这两值,即从主机到设备和从设备到主机。特别重要一点,不能在主机代码里使用cudaMalloc分配的指针进行内存读写操作,只能用cudaMemcpy来进行处理。

3.add()函数的调用,竟然变成了add<<<1,1>>>(dev_c, 1, 2);。使用了<<<1,1>>>这么奇怪的方式,第一个1代表着1个线程块,后面的1是代表一个线程在执行。线程块最大值是65535,线程最大值是512,同时执行最多就只有65535*512。这就是并行的魅力所在,不像CPU执行,只能一个个运行。当然现在有多核的CPU,但普通的CPU也就那个几个核,根本无法比。这就是GPU编程的魅力所在,能对大量的数据并行执行。

当然我们这个例子根本看不到效率,等数量级变大,才能看出并行的魅力。

转载于:https://www.cnblogs.com/lopezycj/archive/2011/06/18/cuda_add.html

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值