cuda必须装在c盘吗_【遇见CUDA】要更快,请提高数据传输效率!

4c79cea0bcd93297ee3f6700ea7c9d9d.png

关于CUDA并行计算,我之前正儿八经的写过两篇博客:

【遇见CUDA】线程模型与内存模型
【遇见CUDA】CUDA算法效率提升关键点概述

那时候,我正好完成了立体匹配算法的CUDA实现,掌握了一些实实在在的CUDA编程知识,我从我的博士论文里把CUDA部分整理出来写了两篇很基础的科普文。

感兴趣的同学可以看看我实现的算法运行视频:

放一个GPU版的SGM,看能不能跑赢KITTI采集车

转眼快两年时间,我中间竟然再也没系统性的碰过CUDA,我想我的技术怕是要退化了。最近,组内同事接到一个CUDA算法优化项目,在效率优化的过程中,我们相互交流学习,就发现一个有关设备端和主机端之间数据传输的效率问题,简单来说就是数据传输效率成为了算法的性能瓶颈。

同事最终通过固定内存异步传输解决了该问题。本篇的主题也就以此为背景,想为大家科普下:

如何提高数据传输效率!

有同学可能想说,数据传输不就是cudaMemcpy吗?还有什么优化的方案呢?

当然有,还不止一种!

1. 我们在讨论什么?

我们讨论的数据传输,是指设备端和主机端的数据相互拷贝。

设备端指GPU端,数据存放在显存中;主机端指CPU,数据存放在内存中。一般情况下,设备端是不能直接访问主机端内存的(注意是一般情况下,有一种情况是例外,我后面会说),而我们的数据通常情况下都是存放在主机端内存中,要在GPU中执行算法运算就必须先把数据拷贝至设备端,运算完成再把结果拷回至主机端。这个传输过程,显然是会耗时的。

3f92432b6091aa8c6a6ead8b4449f04d.png

传输需要多少耗时? 这和PCIe总线带宽正相关。PCIe是CPU和GPU之间数据传输的接口,发展至今有多代技术,从之前的PCIe 1.0到现在的PCIe 3.0、PCIe 4.0,带宽越来越大,传输也是越来越快。一般PCIe会有多条Lane并行传输,理论传输速度成倍增加,我这里列一下多路PCIe 3.0、PCIe 4.0各自的带宽数值:

cc85550c002b33ba10b2b806c513a35e.png


可以看到不同代次的总线宽度显著不同,而多Lane有成倍的带宽优势。

我用GPU查了查我的GTX1070桌面版,显示是PCIe x16 3.0,对应上表中的16000MB/s的带宽。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值