【CUDA编程1】年轻人的第一个CUDA程序

本系列讲述的方法均是Linux实现方法。
说CUDA是人工智能算法行业的重要基石一点也不为过。老黄在图灵架构发布的时候说,图灵架构是英伟达历史上自2006年以来最伟大的飞跃。而2006年,正是CUDA发布的时间。
利用CUDA,开发者可以拿N家的GPU进行各种自定义的任务,挖矿、炼丹等等。今天咱们通过第一个CUDA程序,了解一下CUDA程序的构造。看CUDA界的Hello World程序:

#include<stdio.h>
__global__ void hello_world(void)
{
  printf("GPU: Hello world!\n");
}
int main(int argc,char **argv)
{
  printf("CPU: Hello world!\n");
  hello_world<<<1,10>>>();
  cudaDeviceReset();//if no this line ,it can not output hello world from gpu
  return 0;
}

代码来自谭老师的cuda教学repo。将上述代码保存为helloworld.cu,运行方法:

nvcc -o helloworld helloworld.cu
./helloworld

上述代码讲述了如何利用GPU把hello world打印10遍。用__global__修饰的函数为核函数,可直接被GPU上的thread调用运行。本程序的入口是main函数,由CPU进入程序,然后用CPU再调用GPU。
<<<1,10>>>表示分配的block数量和thread数量,即用10个线程并行去跑helloworld()函数。

这里的block和thread表示GPU的阵列粒度,一个block是一组thread集合,而一组block是一个grid。CUDA中的grid/block/thread既是逻辑概念也是硬件概念。而thread就是CUDA运行核函数的最小单位。

可以用一张图来展示:
CUDA用10个GPU线程启用print,跟用for循环print10遍的结果看起来一样,实则运算逻辑是并行和串行的区别。思考:为什么GPU被用来做挖矿? 答:因为简单重复的哈希运算可以并行做。挖矿算法就是用穷举法来试答案,CPU一次只能试1次答案,而GPU理论上一次可以使线程数个答案。这立马就高下立判了。最后,如果想在GPU上用printf,则必须加一个cudaDeviceReset()。

总结

GPU有大量的计算阵列,每个阵列单元可以独立运行函数。这也是CUDA能够比CPU计算呈指数倍快速的原因。CUDA最常见的用法就是矩阵运算,你想想如果你用C语言写两个矩阵的乘法,是不是需要写2个for循环来嵌套。直接就是 O ( n 2 ) O(n^2) O(n2)的复杂度了。如果用CUDA去做,计算就会指数级降低。
所以,但凡涉及到多个for循环嵌套的大规模计算,都可以用CUDA来减少for循环。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木盏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值