CUDA编程指南阅读笔记（二）

最新推荐文章于 2021-05-16 08:46:20 发布

绕梁九日

最新推荐文章于 2021-05-16 08:46:20 发布

阅读量2.4k

点赞数

分类专栏： CUDA 文章标签： CUDA GPU 异构计算性能优化

本文链接：https://blog.csdn.net/csgxy123/article/details/9972927

版权

CUDA 专栏收录该内容

12 篇文章 4 订阅

订阅专栏

3. CUDA基本概念（下）

3.3 内存层次（Memory Hierarchy）

在GPU上CUDA线程可以访问到的存储资源有很多，每个CUDA线程拥有独立的本地内存（local Memory）；每一个线程块（block）都有其独立的共享内存（shared memory），共享内存对于线程块中的每个线程都是可见的，它与线程块具有相同的生存时间；同时，还有一片称为全局内存（global memory）的区域对所有的CUDA线程都是可访问的。

除了上述三种存储资源以外，CUDA还提供了两种只读内存空间：常量内存（constant memory）和纹理内存（texture memory），同全局内存类似，所有的CUDA线程都可以访问它们。对于一些特殊格式的数据，纹理内存提供多种寻址模式以及数据过滤方法来操作内存。这两类存储资源主要用于一些特殊的内存使用场合。

一个程序启动内核函数以后，全局内存、常量内存以及纹理内存将会一直存在直到该程序结束。下面是CUDA的内存层次图：

3.4 异构编程（Heterogeneous Programming）

CUDA的异构编程模型假定CUDA线程都运行在一个可被看做CPU协处理器的芯片上，这就使得CUDA内核函数可以和CPU端C程序的运行并行运行，从而加快程序的运行效率。为了达到这个效果，CUDA程序需要管理两大块由DRAM构成的内存区域：CPU端可以访问到的主机内存（host memory）以及GPU端供CUDA内核访问到的设备内存（device memory），设备内存主要由全局内存、常量内存以及纹理内存构成。现在，CUDA程序的运行机制便很明了了：CPU端代码生成原始数据，通过CUDA运行时函数库将这些原始数据传输到GPU上，在CPU端启动CUDA内核函数进行运算，然后将运算结果从设备端传输到主机端，计算任务便完成了。

绕梁九日

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
CUDA编程指南阅读笔记（二）

3. CUDA基本概念（下）3.3 内存层次（Memory Hierarchy）在GPU上CUDA线程可以访问到的存储资源有很多，每个CUDA线程拥有独立的本地内存（local Memory）；每一个线程块（block）都有其独立的共享内存（shared memory），共享内存对于线程块中的每个线程都是可见的，它与线程块具有相同的生存时间；同时，还有一片称为全局内存（glob
复制链接

扫一扫