CUDA流与异步

Cheny1m

已于 2024-05-05 12:18:16 修改

阅读量227

点赞数 1

文章标签： gpu算力 c++ pytorch

于 2024-04-23 21:09:03 首次发布

本文链接：https://blog.csdn.net/qq_19716143/article/details/137250371

版权

本文详细阐述了CUDA流在异步编程中的重要性，包括重叠主机与设备计算、数据传输的同步与异步处理，以及如何通过PyTorch利用CUDA流实现更高效的并行计算。特别强调了固定内存和pinned内存在数据一致性中的作用。

摘要由CSDN通过智能技术生成

CUDA流与异步

基于流的异步的内核启动和数据传输支持以下类型的粗粒度并发：
1.重叠主机计算和设备计算；
2.重叠主机计算和主机与设备间的数据传输；
3.重叠主机与设备间的数据传输和设备计算；
4.并发设备计算。
理解一个CUDA程序，应该从设备和主机两个角度来考虑。从设备的角度来看，操作都被发布到默认的流中，并且按发布顺序取执行。设备不知道其他被执行的主机操作。从主机的角度来看，每个数据传输都是同步的，在等待它们完成时，将强制空闲主机时间。内核启动是异步的，所以无论内核是否完成，主机的应用程序几乎都立即恢复执行。这种内核启动的默认异步行为使它可以直接重叠设备和主机计算。
如果要实现重叠主机计算和主机与设备间的数据传输，那么就需要显式地创建CUDA流，来保证这个传输任务不会阻塞主机，而是在CUDA流中异步发布。当执行异步数据传输时，使用cudaMemcpyAsync，但必须使用固定(或非分页的)主机内存来保证异步执行时的数据一致性。可以使用cudaMallocHost函数或者cudaHostAlloc函数分配固定内存。如果使用pageable页面的话会带来性能下降。这里有个例外，如果你使用的是to、_copy()等带有non_blocking参数的传输函数，那么可以显示地设置non_blocking = True来将控制权直接返回给host，从而不需要额外地cuda流。
如果要重叠主机与设备间的数据传输和设备计算，那么要将这两个任务发布在两个不同的非空流中，同时数据传输还是要满足上面的固定内存。如果要在使用空流，那么其他流要使用cudaStreamCreateWithFlags来创建非阻塞流。

Pytorch可以通过将主机与设备间的数据传输和设备计算放在两个显式的torch.cuda.stream中完成重叠，为了效率请保证主机与设备间的数据传输涉及的主机内存是pinned()的。

Cheny1m

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
CUDA流与异步

基于流的异步的内核启动和数据传输支持以下类型的粗粒度并发：1.重叠主机计算和设备计算；2.重叠主机计算和主机与设备间的数据传输；3.重叠主机与设备间的数据传输和设备计算；4.并发设备计算。理解一个CUDA程序，应该从设备和主机两个角度来考虑。从设备的角度来看，操作都被发布到默认的流中，并且按发布顺序取执行。设备不知道其他被执行的主机操作。从主机的角度来看，每个数据传输都是同步的，在等待它们完成时，将强制空闲主机时间。内核启动是异步的，所以无论内核是否完成，主机的应用程序几乎都立即恢复执行。
复制链接

扫一扫