【CUDA】新手的第一个CUDA C程序:“Hello World from GPU !“


一、前言

  • 在计算密集型应用中,往往有很多并行数据的程序段,我们期望使用特殊架构的硬件加速器提升这部分程序段的执行速度,GPU可以说是最为常见的硬件加速器。今天介绍我们学习新的编程语言时都会写的一个程序Hello world!——CUDA版

二、CUDA背景知识

  • CUDA是一种通用的并行计算平台和编程模型,它利用NVIDIA GPU中的并行计算引擎能更有效地解决复杂的计算问题。CUDA C是标准ANSI C的一个扩展,它带有的少数语言扩展功能使异构编程成为可能,同时也能用过API来管理设备、内存和其他任务。

  • 一个CUDA程序包含了以下两部分的混合。

    • 在CPU上运行的主机代码
    • 在GPU上运行的设备代码
  • NVIDIA 的CUDA nvcc编译器在编译过程中将设备代码从主机代码中分离出来。主机代码是标准的C代码,使用C编译器进行编译。设备代码,也就是核函数,是用扩展的带有标记数据并行函数关键字的CUDA C语言编写的。设备代码通过nvcc进行编译。在链接阶段,在内核程序调用和显示GPU设备操作中添加CUDA运行时库。

  • nvcc编译器以LLVM开源编译系统为基础的。

本文在Linux上进行演示。

三、用GPU输出Hello World

  1. 检查环境和硬件是否正确安装。
    首先检查是否安装了NVIDIA加速卡。

    	ls -l /dev/nv*
    

    在这里插入图片描述
    代表存在加速卡。

    或者使用nvidia-smi指令查看是否有NVIDIA加速卡,可以看到当前使用的机器上装有一个Tesla V100加速卡。
    在这里插入图片描述

    接下来检查nvcc编译器是否正确安装。

    	nvcc -V
    

    不出意外应该会输出类似的提示👇
    在这里插入图片描述
    如果提示bash: nvcc: command not found,说明你的编译器没有安装或者正确安装,参考这里进行安装

  2. 到这里就可以写我们的第一个CUDA 程序了。
    我们编写一个C语言程序输出Hello World,代码如下:

    	#include<stdio.h>
    	int main(void){
    	    // hello from cpu
    	    printf("Hello World From CPU!\n");
    	    return 0;
    	}
    

    将代码保存至hello.cu中,然后使用nvcc编译器编译,并执行生成的可执行文件。
    在这里插入图片描述
    接下来编写一个内核函数,命名为helloFromGPU,用它来输出字符串Hello World from GPU !

    	__global__ void helloFromGPU(void){
    	    printf("Hello World From GPU!\n");
    	}
    

    修饰符__global__告诉编译器这个函数会从CPU上调用在GPU上执行。用下面的代码启动内核函数。

    	helloFromGPU<<<1, 10>>>();
    

    三重尖括号代表从主线程到设备端代码的调用。一个内核函数通过一组线程来执行所有线程执行相同的代码。尖括号中的参数是执行配置,用来说明使用多少线程执行内核函数,上面我们使用10个GPU线程被调用。
    Hello World完整程序的如下所示:

    	#include<stdio.h>
    	
    	__global__ void helloFromGPU(void){
    	    printf("Hello World From GPU!\n");
    	}
    	
    	
    	int main(void){
    	    // hello from cpu
    	    printf("Hello World From CPU!\n");
    	
    	    // hello from gpu
    	    helloFromGPU<<<1, 10>>>();
    	    cudaDeviceReset();
    	
    	    return 0;
    	}
    

    函数cudaDeviceReset()用来显式地释放和清空当前进程中与当前设备有关的所有资源。
    使用nvcc编译完整版代码,并执行生成的可执行文件,结果如下:
    在这里插入图片描述
    该程序自CPU端输出一条语句,GPU端输出十条语句,其中每个线程输出一条,可以自由调整尖括号中的参数,看看会有什么变化。


四、总结

以上就是新手的第一个CUDA C程序了,只是简单实现了主机端调用设备端代码 ,GPU最强的计算还没使用呢,之后的博客再对比多核CPU和GPU的计算性能差异。
如果本文能给你带来帮助的话,点个赞鼓励一下作者吧!

五、参考

[1] 《CUDA C编程入门》

  • 2
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值