![4c79cea0bcd93297ee3f6700ea7c9d9d.png](https://i-blog.csdnimg.cn/blog_migrate/16fd977c51c8a26bcb2cbc978456206f.jpeg)
关于CUDA并行计算,我之前正儿八经的写过两篇博客:
【遇见CUDA】线程模型与内存模型
【遇见CUDA】CUDA算法效率提升关键点概述
那时候,我正好完成了立体匹配算法的CUDA实现,掌握了一些实实在在的CUDA编程知识,我从我的博士论文里把CUDA部分整理出来写了两篇很基础的科普文。
感兴趣的同学可以看看我实现的算法运行视频:
放一个GPU版的SGM,看能不能跑赢KITTI采集车
转眼快两年时间,我中间竟然再也没系统性的碰过CUDA,我想我的技术怕是要退化了。最近,组内同事接到一个CUDA算法优化项目,在效率优化的过程中,我们相互交流学习,就发现一个有关设备端和主机端之间数据传输的效率问题,简单来说就是数据传输效率成为了算法的性能瓶颈。
同事最终通过固定内存和异步传输解决了该问题。本篇的主题也就以此为背景,想为大家科普下:
如何提高数据传输效率!
有同学可能想说,数据传输不就是cudaMemcpy吗?还有什么优化的方案呢?
当然有,还不止一种!
1. 我们在讨论什么?
我们讨论的数据传输,是指设备端和主机端的数据相互拷贝。
设备端指GPU端,数据存放在显存中;主机端指CPU,数据存放在内存中。一般情况下,设备端是不能直接访问主机端内存的(注意是一般情况下,有一种情况是例外,我后面会说),而我们的数据通常情况下都是存放在主机端内存中,要在GPU中执行算法运算就必须先把数据拷贝至设备端,运算完成再把结果拷回至主机端。这个传输过程,显然是会耗时的。
![3f92432b6091aa8c6a6ead8b4449f04d.png](https://i-blog.csdnimg.cn/blog_migrate/3ad8a47e7dc56d29946f0807500ce403.png)
传输需要多少耗时? 这和PCIe总线带宽正相关。PCIe是CPU和GPU之间数据传输的接口,发展至今有多代技术,从之前的PCIe 1.0到现在的PCIe 3.0、PCIe 4.0,带宽越来越大,传输也是越来越快。一般PCIe会有多条Lane并行传输,理论传输速度成倍增加,我这里列一下多路PCIe 3.0、PCIe 4.0各自的带宽数值:
![cc85550c002b33ba10b2b806c513a35e.png](https://i-blog.csdnimg.cn/blog_migrate/edd0dbb919bbb90e977db2c31416d593.png)
可以看到不同代次的总线宽度显著不同,而多Lane有成倍的带宽优势。
我用GPU查了查我的GTX1070桌面版,显示是PCIe x16 3.0,对应上表中的16000MB/s的带宽。