Cuda 内存模型相关相关知识

最新推荐文章于 2024-05-28 21:36:09 发布

JUAN425

最新推荐文章于 2024-05-28 21:36:09 发布

阅读量811

点赞数

分类专栏： DeepLearning 综合

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/a130737/article/details/44202863

版权

综合同时被 2 个专栏收录

85 篇文章 0 订阅

订阅专栏

21 篇文章 0 订阅

订阅专栏

CUDA中，每个线程所能掌控的内存有如下几种：

（1）R / W per thread registers。

（2） R/W per thread local memory(每个线程的局部内存)

(3) R/W per block shared memory(共享内存)

（4） R/W per grid global memory

(5) 只能线程用于读，不能用于写的per grid constant memory

(6) 只能用线程于读，不能用于写的texture memory.

另外host掌控这global memory. const memory, texture memory。能够对这三个内存区域进行读和写。

为了清楚的表达CUDA的内存模型，见如下图：

注意， global memory 是host和device进行数据读写通信的主要手段。 global区域中的数据对于所有的thread都是可见的。

texture 和constant memory 中， constant 区域是被host进行初始化的。而且这两个内存区域的内容也是被所有的线程可见。

另外， global， constant，以及texture的memory区域是数据读写是延迟较大的区域。

CUDA 有一个API, 即cudaMalloc()函数，是device的在global memory中分配内存对象所需的内存。并且使用cudaFree（）释放

该global memory中给定的对象。

cudaMemcpy() 函数是内存中数据的移动用的。传递的方时有如下几种：

HostToHost

HostToDevice

DeviceToDevice

DeviceToDevice

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Cuda 内存模型相关相关知识

CUDA中，每个线程所能掌控的内存有如下几种：（1）R / W per thread registers。（2） R/W per thread local memory(每个线程的局部内存) (3) R/W per block shared memory(共享内存) （4） R/W per grid global memory
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。