Heterogeneous Parallel Programming（异构并行编程）学习笔记（六）

最新推荐文章于 2019-06-06 11:51:07 发布

苏幕洲

最新推荐文章于 2019-06-06 11:51:07 发布

阅读量2.8k

点赞数

文章标签： cuda parallel 编程

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/huhumama0/article/details/8517576

版权

本文介绍了CUDA中的Pinned Memory，它能避免数据传输时因分页导致的性能影响。此外，文章阐述了Overlapping的概念，即在I/O和计算之间实现并行处理，以提高程序性能。通过创建多个流，CUDA能够实现部分Overlapping，通过优化内存传输和计算的时间，提升GPU利用率。

摘要由CSDN通过智能技术生成

这里主要介绍CUDA的Overlapping计算。

1. Pinned Memory

所谓的Pinned Memory，是一种锁定内存物理地址的方法，对应于操作系统的分页技术。众所周知，操作系统的虚拟地址空间大于物理地址，通过分页（paging）技术来实现其转换与管理。如果在cudaMemcpy()过程中，正在发出或者接收数据的内存被paged out了，则对程序的性能肯定有影响。使用Pinned Memory能够避免这一问题。实际上，在调用cudaMemcpy(dest, src, ...)时，程序会自动检测dest或者src是否为Pinned Memory，若不是，则会自动将其内容拷入一不可见的Pinned Memory中，然后再进行传输。可以手动指定Pinned Memory，对应的API为：cudaHostAlloc(address, size, option)分配地址，cudaFreeHost(pointer)释放地址。注意，所谓的Pinned Memory都是在Host端的，而不是Device端。

2. Overlapping

部分的CUDA设备支持Overlap特性，使I/O和计算能够并行处理。这种特性能够更加优化程序性能。

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。