CUDA 学习 1

易日

已于 2023-03-15 14:28:24 修改

阅读量221

点赞数

文章标签：学习 CUDA

于 2023-03-13 15:40:49 首次发布

本文链接：https://blog.csdn.net/u012830675/article/details/129494432

版权

CUDA 学习 1

GPU简介
- CPU与GPU适用方向
- CPU与GPU线程的区别
CUDA杂记

GPU简介

CPU与GPU适用方向

由于CPU与GPU的硬件结构差别，所以其适用方向亦有不同。
CPU中控制单元占比大，所以适用于低并行逻辑复杂的程序。
GPU中计算单元占比大，所以适用于高并行逻辑简单的大数据计算。

CPU与GPU线程的区别

CPU线程是重量级实体，操作系统交替执行线程，线程上下文切换花销很大。
GPU线程是轻量级的，GPU应用一般包含成千上万的线程，多数在排队状态，线程之间切换基本没有开销。
CPU的核被设计用来尽可能减少一个或两个线程运行时间的延迟，而GPU核则是大量线程，最大幅度提高吞吐量。

CUDA杂记

API的级别分类

高级API：运行时API，使用简单，更加友好；基于驱动API实现；函数名以cuda开头。
低级API：驱动API，使用相对困难；函数名以cu开头。

CUDA的应用组成

CPU主机端代码 + GPU设备端代码

编译器

CUDA nvcc编译器会自动分离代码里面的不同部分，主机代码用C完成，则使用本地的C语言编译器编译，设备代码（kernel）用CUDA C完成，通过nvcc编译，在内核程序调用或GPU设备操作时，添加运行时库。

程序步骤

分配内存到GPU。
拷贝内存到设备。
调用CUDA内核函数执行计算。
把计算结果数据拷贝回主机端。
释放内存。

限定符

限定符	执行	调用	备注
global	设备端执行	可以从主机调用也可以从计算能力3以上的设备调用	必须有一个void的返回类型
device	设备端执行	设备端调用
host	主机端执行	主机调用	可以省略

共享内存

由__shared__关键字修饰
共享内存因为更靠近计算单元，所以访问速度更快
可以利用共享内存实现线程间的通信

动态共享内存

需要添加extern关键字；不需要指定数组大小。

extern __shared__ char dynamicSharedMemory[];

静态共享内存

不需要添加extern关键字；需要指定数组大小。

__shared__ char staticSharedMemory[1024];

同步

CPU与GPU执行程序是异步的，核函数调用后会立刻到主机线程继续，而不管GPU端核函数是否执行完成，CUDA提供显示分方法，即在核函数后加入cudaDeviceSynchronize()函数，CPU会等待GPU执行完成，再进行CPU后续步骤。
对应的也有隐式方法，比如内存拷贝函数cudaMemcpy()。