CUDA学习之第四章：全局内存（二）

网安菜13

已于 2023-07-28 10:40:45 修改

阅读量97

点赞数

分类专栏： cuda学习文章标签： gpu算力

于 2023-07-28 10:40:07 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_49833809/article/details/131972987

版权

cuda学习专栏收录该内容

6 篇文章 0 订阅

订阅专栏

4.2 内存管理

4.2.1 内存分配和释放

动态分配全局内存的经典函数：

cuda Error_t cudaMalloc(void ** devPtr, size_t count);

分配了count字节的全局内存给devPtr指向的地址。初始化可以使用如下函数：

cuda Error_t cudaMemset(void *devPtr, int value, size_t count);

释放则是经典函数：

cudaError_t cudaFree(void *devPtr);

分配和释放的成本很高，应该多次利用内存少开新的。

4.2.2 内存传输

分配好了就可以传输数据，我们依旧使用之前提到的经典函数：

cudaError_t cudaMemcpy(void *dst, const void *src, size_t count, enum cudaMemcpyKind kind);

此函数从src复制count字节到dst，kind指定了方向。其取值有四种情况：

cudaMemcpyHostToHost
cudaMemcpyHostToDevice
cudaMemcpyDeviceToHost
cudaMemcpyDeviceToDevice

这个函数大部分情况也是同步的。

4.2.3 固定内存

分配的主机内存默认是可分页的，GPU不能安全地访问这些内存。CUDA驱动程序会先将主机源数据复制到固定内存，再给GPU。
那么我们可以直接分配固定内存，使用如下函数：

cudaError_t cudaMallocHost(void **devPtr, size_t count);

分配了count字节的主机内存，且是页面锁定的，对设备是可访问的。因为固定内存可以直接被设备访问，其带宽高，但是影响主机的性能。
释放必须使用如下函数：

cudaError_t cudaFreeHost(void *ptr);

对于超过10MB的数据传输，在Fermi设备上使用固定内存会更好。
使用方法：将原本的malloc替换为cudaMallocHost即可。

4.2.4 零拷贝内存

零拷贝内存是主机和设备都可以访问的，其优势有三：

设备内存不足时利用主机内存
避免主机和设备间的显示数据传输
提高PCIe的传输率。

使用零拷贝内存时要注意主机和设备的同步，如果同时更改会出问题。
零拷贝内存也是固定内存，映射到设备地址空间中。通过如下函数创建一个到固定内存的映射。

cudaError_t cudaHostAlloc(void **pHost, size_t count, unsigned int flags);

该函数分配了count字节的主机内存，是页面锁定的且设备可访问。必须用cudaFreeHost释放。
flags参数对其进行特殊配置：

cudaHostAllocDefault函数使其与cduaMallocHost函数一致
cudaHostAllocPortable函数返回能被CUDA上下文使用的固定内存，而不仅是执行内存分配的那个。
标志cudaHostAllocWriteCombined返回写结合内存，传输快，但是主机不能有效读取，用作缓冲区很好。
标志cudaHostAllocMapped是零拷贝内存的标志，使主机写入和设备读取被映射到地址空间中的主机内存。

使用以下函数获取映射到固定内存的设备指针：

cudaError_t cudaHostGetDevice(void **pDevice, void *pHost, unsigned int flags);

返回了一个在pDevice中的设备指针，可以在设备上被引用来得到固定主机内存。设备不支持的话函数失效，flag留有后用，现在为0。
频繁读写的时候使用零拷贝内存作为设备内存补充会降低性能。
使用方法：先用cudaHostAlloc开一个主机内存，flag设为cudaHostAllocMapped。然后用cudaHostGetDevice函数获取其被映射的设备指针，直接使用设备指针给核函数传参即可。（传回结果仍然使用cudaMemcpy的老一套，就是全局内存。）
零拷贝内存少用，效率很低，而且越大效率越低。

4.2.5 统一虚拟寻址

统一虚拟寻址称为UVA，在CUDA4.0中被引入。这个时候就不用管理设备还是主机了，上一小节零拷贝内存可由此简化为直接cudaHostAlloc一个主机内存，然后直接传参给核函数即可。效率与上一节测试内容中零拷贝内存的效率相同。
主要作用：简化代码（而非效率）

4.2.6 统一内存寻址

也是简化代码用的，创建了一个托管内存池，其中之空间可以用相同的地址提供给主机和设备，其依赖于UVA之支持但是与之不同。统一内存寻址由于将内存和执行空间分离，会提升局部性和性能。
托管内存指的是底层系统自动分配的统一内存，静态分配用__managed__注释（也是全局变量），如下：

__device__ __managed__ int y;

动态分配则用如下函数：

cudaError_t cudaMallocManaged(void **devPtr, size_t size, unsigned int flags=0);

分配size字节托管内存，用devPtr返回指针，指针在主机和设备都有效，注意此函数必须于主机端使用。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
CUDA学习之第四章：全局内存（二）

分配了count字节的全局内存给devPtr指向的地址。分配和释放的成本很高，应该多次利用内存少开新的。
复制链接

扫一扫

专栏目录

网安菜13 CSDN认证博客专家 CSDN认证企业博客

码龄4年

10: 原创

140万+: 周排名

28万+: 总排名

4374: 访问

: 等级

141: 积分

2: 粉丝

1: 获赞

7: 评论

15: 收藏

私信

关注

热门文章

分类专栏

最新评论

Zama文章之 TFHE深度解析-第一部分-密文形式
CSDN-Ada助手: 非常感谢您的分享，对于TFHE的深度解析让我受益匪浅。希望您能继续坚持创作，分享更多关于TFHE的知识，也期待您能在下一篇博客中加入更多实际案例分析，让读者更好地理解和应用TFHE。祝您创作顺利，期待您的下一篇精彩文章！
Zama文章之同态加密概论
CSDN-Ada助手: 恭喜您撰写了第11篇博客，标题为“Zama文章之同态加密概论”，内容涉及同态加密的概念及应用，非常有深度和价值。希望您能继续保持创作的热情和动力，为我们带来更多深入的技术解析和思考。建议您可以考虑从实际案例出发，结合具体的行业应用场景，为大家呈现更加生动和具体的内容。期待您的下一篇博客！
CUDA学习之第五章共享内存和常量内存（二）
CSDN-Ada助手: 恭喜你写了第10篇博客！标题中提到的共享内存和常量内存，是CUDA学习中非常重要的内容。你的文章给出了第五章的进一步解析，让读者更深入地理解了这两个概念。我觉得你的写作风格很清晰，能够将复杂的概念讲解得易于理解。不过，我想提个建议，希望你能在下一篇博客中加入一些实际的案例或者示例代码，这样读者可以更直观地体验到共享内存和常量内存的优势和应用场景。期待你的更多精彩文章！
CUDA学习之第五章共享内存和常量内存（一）
CSDN-Ada助手: 恭喜您撰写了第9篇博客！标题中提到的共享内存和常量内存是CUDA学习中非常重要的主题之一。通过深入研究和分享这些内容，您不仅加深了自己对CUDA的理解，也帮助了其他人更好地掌握这些概念。下一步，我建议您可以继续探索共享内存和常量内存的更高级用法和优化技巧，比如如何合理分配共享内存和常量内存的大小，以及如何在多个线程块之间共享数据等。此外，您还可以考虑分享一些实际案例，展示共享内存和常量内存在加速GPU计算中的实际效果。再次祝贺您的持续创作，期待您的下一篇博客！
CUDA学习之第四章：全局内存（一）
CSDN-Ada助手: 恭喜您完成第五篇博客！标题看起来很有吸引力，我很期待阅读您关于CUDA学习的系列文章。从全局内存的角度来探索CUDA，这个主题听起来非常有趣。在您的下一篇博客中，或许您可以进一步探讨全局内存的使用技巧，以及与其他内存类型的比较和优化方法。我相信您的深入研究和谦虚态度会使这个系列的文章更加出色。加油！

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。