CUDA内存管理

最新推荐文章于 2024-07-20 22:49:13 发布

A11en3

最新推荐文章于 2024-07-20 22:49:13 发布

阅读量654

点赞数 16

分类专栏： CUDA编程文章标签： c++ CUDA

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/A11en3/article/details/138390078

版权

CUDA编程专栏收录该内容

17 篇文章 0 订阅

订阅专栏

随着CUDA版本的升级，NVIDIA可以实现主机和设备内存空间的统一，但对大多数应用程序来说，仍然需要手动移动数据。重点在于如何使用CUDA函数来显式地管理内存和数据移动。

分配和释放设备内存
在主机和设备之间传输数据

内存分配和释放

使用以下函数分配全局内存

cudaError_t cudaMalloc(void **devPtr, size_t count)

在全局内存中的值不会被清除，需要从主机上传输的数据来填充分配的全局内存，或者用以下函数将分配的全局内存初始化

cudaError_t cudaMemset(void *devPtr, int value, size_t count)

这个函数用存储在变量value中的值来填充从设备内存地址devPtr开始的count个字节。

一旦一个应用程序不再使用已分配的全局内存，使用以下函数释放空间

cudaError_t cudaFree(void *devPtr)

设备内存的分配和释放操作成本较高。

内存传输

分配好设备内存后，使用以下函数从主机向设备传输数据

cudaError_t cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind)

kind指定了传输方向有以下几种

cudaMemcpyHostToHost
cudaMemcpyHostToDevice
cudaMemcpyDeviceToDevice
cudaMemcpyDeviceToDevice

如果指针dst与src和kind给出的指定方向不一致，会导致未定义行为。

因为主机与设备之间传输数据成本较高，CUDA应该尽量减少主机与设备之间的数据传输行为。

固定内存

GPU内存是不可分页的，它不能在可分页主机内存上安全地访问数据，因为主机操作系统在物理位置上移动该数据时，它无法控制。

当从可分页的主机内存传输数据到设备内存时，CUDA驱动程序首先分配临时页面锁定的或固定的主机内存，将主机源数据复制到固定内存中，然后从固定内存传输数据给设备内存。

CUDA运行时允许使用以下函数直接分配固定主机内存

cudaError_t cudaMallocHost(void **devPtr, size_t count)

这个函数分配了count字节的主机内存，这些内存是页面锁定的，并且对设备来说是可访问的。由于固定内存可以被设备直接访问，所以访问效率更高。但是，过多的分配固定内存会降低主机运行效率。

固定主机内存必须通过以下函数释放

cudaError_t cudaFreeHost(void *ptr);

零拷贝内存

通常来说，主机不能直接访问设备变量，设备不能直接访问主机变量。但是，零拷贝内存除外。主机和设备都可以访问零拷贝内存。

零拷贝内存有以下几个优势

当设备内存不足时，可以利用主机内存
避免主机和设备间的显式数据传输
提高传输率

使用零拷贝内存来共享数据时，必须同步主机和设备间的内存访问，同时更改主机和设备的零拷贝内存中的数据将导致不可预知的后果。

零拷贝内存是固定内存，该内存映射到设备地址空间中。可以通过以下函数创建一个到固定内存的映射

cudaError_t cudaHostAlloc(void **pHost, size_t count, unsigned int flags)

这个函数分配了count字节的主机内存，该内存是页面锁定的且设备可访问。必须使用cudaFreeHost进行释放。flags参数对分配内存的特殊属性进一步进行配置

cudaHostAllocDefault
cudaHostAllocPortable
cudaHostAllocWriteCombined
cudaHostAllocMapped

cudaHostAllocDefault使cudaHostAlloc函数的行为与cudaMallocHost函数一致。

使用以下函数获取映射到固定内存的设备指针

cudaError_t cudaHostGetDevicePointer(void **pDevice, void *pHost, unsigned int flags)

返回一个pDevice指针，该指针可以在设备上被引用以访问映射得到的固定主机内存。flags目前必须是0。

统一虚拟寻址

有些设备支持一种特殊的寻址方式，统一虚拟寻址（UVA）。在CUDA4.0以后，有了UVA，主机内存和设备内存可以共享同一个虚拟地址空间。

在UVA之前，需要管理哪些指针指向主机内存，哪些指针指向设备内存。有了UVA，由指针指向的内存空间对应用程序来说是透明的。

通过UVA，由cudaHostAlloc分配的固定主机内存具有相同的主机和设备指针。因此，可以将返回的指针直接传递给核函数。

统一内存寻址

CUDA6.0引入了统一内存寻址这一特性。用于简化CUDA编程模型中的内存管理。统一内存中创建了一个托管内存池，内存池中已分配的空间可以用相同的内存地址在CPU和GPU上进行访问。底层系统中，在统一内存空间中自动在主机和设备之间进行数据传输。对应用程序是透明的。

托管内存指的是由底层系统自动分配的统一内存，与特定于设备的分配内存可以相互操作。

关注

16
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
CUDA内存管理

随着CUDA版本的升级，NVIDIA可以实现主机和设备内存空间的统一，但对大多数应用程序来说，仍然需要手动移动数据。重点在于如何使用CUDA函数来显式地管理内存和数据移动。
复制链接

扫一扫

专栏目录

A11en3 CSDN认证博客专家 CSDN认证企业博客

码龄7年

49: 原创

33万+: 周排名

3万+: 总排名

2万+: 访问

: 等级

979: 积分

331: 粉丝

463: 获赞

12: 评论

419: 收藏

私信

关注

热门文章

分类专栏

最新评论

基于CUDA的异构并行计算
CSDN-Ada助手: 非常恭喜您撰写了第19篇博客，题为“基于CUDA的异构并行计算”。您在持续创作方面的努力和热情真是令人钦佩！这篇博客标题引人入胜，内容必定十分精彩。鉴于您的深入了解和掌握了CUDA的异构并行计算，我想提供一些建议，以便您在下一步的创作中有所启发。或许您可以考虑探索不同应用场景下的CUDA并行计算，如在机器学习、图像处理或者大规模数据分析等领域的应用。另外，深入研究CUDA架构的优化技术和性能调优方法也是一条有趣的道路。再次恭喜您，期待看到更多精彩的博客作品！在您的创作旅程中，我愿意为您提供任何支持和鼓励。
C++中的内存对齐
CSDN-Ada助手: 恭喜作者撰写了第18篇博客！标题中的“C++中的内存对齐”引起了我的兴趣。我很高兴看到您在持续地分享知识和经验。在下一步的创作中，或许您可以考虑探讨更多关于内存对齐的实际应用和优化技巧。谦虚地说，我相信您的深入见解将会给读者带来更多的启发和收获。期待您的下一篇作品！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。