CUDA 学习 1

GPU简介

CPU与GPU适用方向

由于CPU与GPU的硬件结构差别,所以其适用方向亦有不同。
CPU中控制单元占比大,所以适用于低并行逻辑复杂的程序。
GPU中计算单元占比大,所以适用于高并行逻辑简单的大数据计算。

CPU与GPU线程的区别

  1. CPU线程是重量级实体,操作系统交替执行线程,线程上下文切换花销很大。
  2. GPU线程是轻量级的,GPU应用一般包含成千上万的线程,多数在排队状态,线程之间切换基本没有开销。
  3. CPU的核被设计用来尽可能减少一个或两个线程运行时间的延迟,而GPU核则是大量线程,最大幅度提高吞吐量。

CUDA杂记

API的级别分类

  1. 高级API:运行时API,使用简单,更加友好;基于驱动API实现;函数名以cuda开头。
  2. 低级API:驱动API,使用相对困难;函数名以cu开头。

CUDA的应用组成

CPU主机端代码 + GPU设备端代码

编译器

CUDA nvcc编译器会自动分离代码里面的不同部分,主机代码用C完成,则使用本地的C语言编译器编译,设备代码(kernel)用CUDA C完成,通过nvcc编译,在内核程序调用或GPU设备操作时,添加运行时库。

程序步骤

  1. 分配内存到GPU。
  2. 拷贝内存到设备。
  3. 调用CUDA内核函数执行计算。
  4. 把计算结果数据拷贝回主机端。
  5. 释放内存。

限定符

限定符执行调用备注
global设备端执行可以从主机调用也可以从计算能力3以上的设备调用必须有一个void的返回类型
device设备端执行设备端调用
host主机端执行主机调用可以省略

共享内存

  • 由__shared__关键字修饰
  • 共享内存因为更靠近计算单元,所以访问速度更快
  • 可以利用共享内存实现线程间的通信

动态共享内存

需要添加extern关键字;不需要指定数组大小。

extern __shared__ char dynamicSharedMemory[];

静态共享内存

不需要添加extern关键字;需要指定数组大小。

__shared__ char staticSharedMemory[1024];

同步

CPU与GPU执行程序是异步的,核函数调用后会立刻到主机线程继续,而不管GPU端核函数是否执行完成,CUDA提供显示分方法,即在核函数后加入cudaDeviceSynchronize()函数,CPU会等待GPU执行完成,再进行CPU后续步骤。
对应的也有隐式方法,比如内存拷贝函数cudaMemcpy()。

kernel核函数限制

  1. 只能访问设备内存。
  2. 必须有void返回类型。
  3. 不支持可变数量的参数。
  4. 不支持静态变量。
  5. 显示异步行为。

性能优化

  1. 程序优化是建立在对硬件和算法过程理解的基础之上的,理解平台的执行模型即硬件特点,是优化性能的基础。
  2. 性能分析工具:nvvp、nvprof
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值