Nvidia ＜cuda programming guide＞文章转载

最新推荐文章于 2024-04-24 15:08:33 发布

Chang_JH

最新推荐文章于 2024-04-24 15:08:33 发布

阅读量424

点赞数

分类专栏： cuda编程文章标签： cuda

版权

CUDA官方文档转接

参考cuda toolkit documentation

在这里插入图片描述

图1. 自动扩展性

block间执行的隔离性使得每个block并不在乎在哪个SM上运行，所以当硬件SM数量比较多时，可以同时运行多个block，当SM数量较小时，block之间可以排队等待在一个SM上运行。自动扩展性的由来。

2.1 kernel

2.2 线程层级结构

2.4 异构编程

分离主机代码和设备代码。
将设备代码编译成汇编格式(PTX code)或二进制格式(cubin object)。
修改主机代码，将<<<...>>>语法替换成必要的CUDA runtime function calls。来启动 PTX格式代码或者cubin object。
剩下的C++代码要么交给其他要么交给nvcc去编译。

在cudart库中实现，要么通过cudart.lib、libcudart.a或者cudart.dll或libcudart.so。

连接到同一个cuda runtime instance的组件之间传递cuda runtime symbol的地址才是安全的。

cuda runtime没有显式的初始化函数，当调用第一个runtime函数时才会初始化一个runtime instance。
runtime为系统中每个设备创建一个上下文(context)。
- 这一个context被称为primary context：在第一次调用需要active context的接口时创建。
- 此应用上所有线程共享此primary context。
- 创建primary context时，如果必要，device code被JIT编译，然后上传至device memory。
以上操作是透明的，如果需要，可以通过driver API获得。
当线程调用cudaDeviceReset()时，它将销毁它current work on的primary context。
- 任何线程再在此设备上调用runtime function时会重新创建一个primary context。
CUDA interface使用global state：<

关注