cuda必须装在c盘吗_【遇见CUDA】要更快，请提高数据传输效率！

最新推荐文章于 2022-10-31 11:26:57 发布

weixin_39594439

最新推荐文章于 2022-10-31 11:26:57 发布

阅读量1.4k

点赞数

文章标签： cuda必须装在c盘吗

关于CUDA并行计算，我之前正儿八经的写过两篇博客：

【遇见CUDA】线程模型与内存模型
【遇见CUDA】CUDA算法效率提升关键点概述

那时候，我正好完成了立体匹配算法的CUDA实现，掌握了一些实实在在的CUDA编程知识，我从我的博士论文里把CUDA部分整理出来写了两篇很基础的科普文。

感兴趣的同学可以看看我实现的算法运行视频：

放一个GPU版的SGM，看能不能跑赢KITTI采集车

转眼快两年时间，我中间竟然再也没系统性的碰过CUDA，我想我的技术怕是要退化了。最近，组内同事接到一个CUDA算法优化项目，在效率优化的过程中，我们相互交流学习，就发现一个有关设备端和主机端之间数据传输的效率问题，简单来说就是数据传输效率成为了算法的性能瓶颈。

同事最终通过固定内存和异步传输解决了该问题。本篇的主题也就以此为背景，想为大家科普下：

如何提高数据传输效率！

有同学可能想说，数据传输不就是cudaMemcpy吗？还有什么优化的方案呢？

当然有，还不止一种！

1. 我们在讨论什么？

我们讨论的数据传输，是指设备端和主机端的数据相互拷贝。

设备端指GPU端，数据存放在显存中；主机端指CPU，数据存放在内存中。一般情况下，设备端是不能直接访问主机端内存的（注意是一般情况下，有一种情况是例外，我后面会说），而我们的数据通常情况下都是存放在主机端内存中，要在GPU中执行算法运算就必须先把数据拷贝至设备端，运算完成再把结果拷回至主机端。这个传输过程，显然是会耗时的。

传输需要多少耗时？ 这和PCIe总线带宽正相关。PCIe是CPU和GPU之间数据传输的接口，发展至今有多代技术，从之前的PCIe 1.0到现在的PCIe 3.0、PCIe 4.0，带宽越来越大，传输也是越来越快。一般PCIe会有多条Lane并行传输，理论传输速度成倍增加，我这里列一下多路PCIe 3.0、PCIe 4.0各自的带宽数值：

可以看到不同代次的总线宽度显著不同，而多Lane有成倍的带宽优势。

我用GPU查了查我的GTX1070桌面版，显示是PCIe x16 3.0，对应上表中的16000MB/s的带宽。

最低0.47元/天解锁文章

weixin_39594439

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
cuda必须装在c盘吗_【遇见CUDA】要更快，请提高数据传输效率！

关于CUDA并行计算，我之前正儿八经的写过两篇博客：【遇见CUDA】线程模型与内存模型【遇见CUDA】CUDA算法效率提升关键点概述那时候，我正好完成了立体匹配算法的CUDA实现，掌握了一些实实在在的CUDA编程知识，我从我的博士论文里把CUDA部分整理出来写了两篇很基础的科普文。感兴趣的同学可以看看我实现的算法运行视频：放一个GPU版的SGM，看能不能跑赢KITTI采集车转眼快两年时间，我中间竟...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。