谈谈显存的使用分析（三）

最新推荐文章于 2023-05-18 15:22:28 发布

shi06

最新推荐文章于 2023-05-18 15:22:28 发布

阅读量1.6k

点赞数

分类专栏： CUDA技术专区文章标签： stream float 测试存储平台

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/shi06/article/details/5766809

版权

CUDA技术专区专栏收录该内容

14 篇文章 2 订阅

订阅专栏

关于异步数据传输的使用方法与性能分析

提供异步执行的函数主要有以下几类：

Ø Kernel函数，通过配置流参数实现

Ø 以Async结尾的函数

Ø Device to device内存拷贝函数

Ø 存储器初始化函数，如cudaMemset等

比较适合用于数据量很大的情况，让处理时间与数据拷贝时间重叠。

异步数据传输使用方法：第一步创建流，

cudaStream_t *stream=(cudaStream_t*)calloc(streamNo,sizeof(cudaStream_t));

for (int i = 0; i < streamNo; i++)

cudaStreamCreate(&stream[i]);

然后使用异步函数和设置流参数：

for (int i = 0; i < streamNo; i++)

{ cudaMemcpy2DAsync(d_Adata+i*size,fpitch,h_fddata+i*size,sample*depth*sizeof(float),sample*depth*sizeof(float),line,cudaMemcpyHostToDevice,stream[i]); cudaMemcpy2DAsync(d_Bdata+i*size,fpitch,h_fddata+i*size,sample*depth*sizeof(float),sample*depth*sizeof(float),line,cudaMemcpyHostToDevice,stream[i]);

Mul<<<blocks,threads,0,stream[i]>>>(d_Cdata,d_Adata,d_Bdata,sample*depth,line,fpitch);

}

性能分析：

Ø 在使用分页内存时，异步处理方式明显优于同步方式，大略快4倍以上且性能波动很小（测试平台9800GT）。GPU上的计算资源是有限的，让数据处理与数据传输的时间产生重叠是一种不错的选择。

Ø 页锁定内存操作性能反而是同步优于异步，我的一种解释是页锁定内存传输的带宽三倍于分页内存，数据分块传输的代价大于处理与传输时间重叠换来的收益，只是个人测试结果，未必正确！

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
3
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。