(五)利用GPU计算整数相加 CUDA

#include <iostream>
using namespace std;
#include <cuda.h>  // CUDA头文件


__global__ void mykernel(void) {
        cout << "hello cuda!\n";
// 此函数代码由设备执行,主机代码调用
// 设备函数由NVIDA编译器编译
// 主机函数由主机上配置的编译器编译
// 三个尖括号<<< >>>标志着一个从主机代码调用设备代码的函数
// 称为"启动内核(kernel launch)"
}
__global__ void integer_add(int *a, int *b, int *c){
        *c = *a + *b;
}

// 函数声明
void add(void);

int main(void){
        mykernel<<<1,1>>>();
        // <<<Dg,Db,Ns,S >>>
        // Dg:Dimension of grid  网格维度
        // Db:Dimension of block 块维度
        // Ns:可选参数,用于设置每个block除了静态分配的shared Memory以外,
        //      最多能动态分配的shared Memory大小,单位位byte。不需要动态分配
        //      时该值为0或省略不写。
        //      是一个cudaSteam_t类型的可选参数,初始值为0,表示该核函数处在
        //      哪个流之中   
        add();
        return 0;
}
void add(void){
        int a, b, c;
        int *d_a, *d_b, *d_c;
        int size = sizeof(int);

        // 1、设置使用的GPU
        cudaSetDevice(0);

        // 2、 分配现存空间
        cudaMalloc((void**)&d_a, size);
        cudaMalloc((void**)&d_b, size);
        cudaMalloc((void**)&d_c, size);

        cout << "输入两个整数用空格隔开:\n";
        cin >> a >> b;

        // 3、 将宿主程序数据复制到显存中
        cudaMemcpy(d_a, &a, size, cudaMemcpyHostToDevice);
        cudaMemcpy(d_b, &b, size, cudaMemcpyHostToDevice);

        // 4、 执行程序,让GPU进行计算,宿主程序等待显卡执行完毕
        integer_add<<<1, 1>>>(d_a, d_b, d_c);

        // 5、将计算后的结果从显存数据拷贝到宿主程序    
        cudaMemcpy(&c, d_c, size, cudaMemcpyDeviceToHost);

        // 6、释放显存空间
        cudaFree(d_a);
        cudaFree(d_b);
        cudaFree(d_c);

        cout << "结果为:" << c << endl;
}
  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值