CUDA Stream相关知识

最新推荐文章于 2023-03-11 12:18:44 发布

s.feng

最新推荐文章于 2023-03-11 12:18:44 发布

阅读量498

点赞数

分类专栏： CUDA编程文章标签： cuda gpu

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feng__shuai/article/details/122364889

版权

CUDA编程专栏收录该内容

33 篇文章 14 订阅

订阅专栏

文章目录

流的分类

学习知识一般有两个方向，一个是往底层钻研，达到庖丁解牛的程度，还有一个方向是往上钻研，达到高屋建瓴的本事，二者缺一不可。今天这个流概念就是稍微上层的思想。流可以理解为一个管道，码农所处在的位置就是CPU, 现在你想往GPU发任务，那么你就要先建立一个管道，然后往这个管道塞入你想做的事情，GPU然后会从管道的另一头获取任务，所以同一个管道中的API严格按照顺序执行。

流可以分为以下两个类型:(其实在我看来就是普通的流，只不过是如果我们自己不创建的话，系统会给我们默认生成一个流，这个流叫做空流，不过这个空流有个特性就是会阻塞其他的流，后面会具体解释。)

空流
非空流
我们一般写的cuda代码都是用的空流，也就是程序生成的一个默认流。下面是一个最简单的流中的操作，伪代码如下:

memcpy(dst,src,size,HostToDevice);
kernel<<<M,N>>>(arg_1; arg_2);
memcpy(dst,src,size,DeviceToHost);

在这里插入图片描述
根据执行的时序图可以看到，memcpy会是host端阻塞，而kernel被调用后会立马控制权会立马发回给host, 而接下来的内存拷贝又会阻塞进程，以上就是一个初级的流原理。

流的调度

从概念上来看，两个不同的流中的kernel是可以在物理硬件上并行的，但是实际往往会复杂的多。

第一阶段

一开始的Fermi GPU是支持16个kernel同时进行的，但是底层硬件只有一个工作队列，所以到了底层执行的时候几乎还是串行的，比如有两个流1，2，其中1：a->b->c, 2流的kernel:d->e->f, 当进入底层硬件时候，还是a->b->c d–>e->f, 比如在执行b的时候，硬件会看看b的依赖a是不是执行完了，执行完了才执行b, b执行完了后，c发现他的依赖都执行完了，然后就会执行，而d发现他的依赖也执行完了（因为他压根没有依赖），所以真正并行的只有c和d两个依赖。这个问题的本质还是由于硬件只有一个工作队列导致的，所以所谓的kernel并行不过就是一句空话。

第二阶段

第二个阶段出现了Hyper-Q技术，这个技术的核心就是出现了多个硬件工作队列, 这个就可以让多个cpu线程，或者进程在同一个GPU上搞事情了。
kerpler有32个硬件工作队列，如果创建的流超过32个的话，会有部分流共享一个硬件工作队列。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CUDA Stream相关知识

流的分类流可以理解为一个管道，在GPU上运行的任何API都必须放在一个管道中，同一个管道中的API严格按照顺序执行。空流非空流我们一般写的cuda代码都是用的空流，也就是程序生成的一个默认流。...
复制链接

扫一扫

专栏目录

s.feng CSDN认证博客专家 CSDN认证企业博客

码龄8年

189: 原创

4万+: 周排名

9828: 总排名

31万+: 访问

: 等级

3911: 积分

242: 粉丝

492: 获赞

97: 评论

1011: 收藏

私信

关注

热门文章

分类专栏

最新评论

float32转float16
薛文旺: gpu上如何转
End-to-End Object Detection with Transformers[DETR]
April_Mon_7788: 作者也不了解query_embed:?这个吗
float32转float16
ld2365: float16_t为啥我树莓派用不了这个类型
C++中的通俗理解左值，右值，左值引用，右值引用
人生有味是清欢: 老哥，你太牛了，从来没有看到如此清晰的解释
内存对齐问题
cqutlqxjy: 楼主可以看一下下面这个程序吗: #include <stdio.h> struct jd { char a[98]; }; struct jd2 { char a; struct jd jd_1; }; int main() { printf( "%d\n", sizeof(struct jd ) ); printf( "%d\n", sizeof(struct jd2 ) ); } 按理来说struct jd2 大小应该是其中max和默认对齐系数的最小值。也就是98和对齐系数的最小值。那就是对齐系数。这个对齐系数不同文章有不同说法，但是都是4或者8.结果运行这个程序显示struct jd2 大小是99,既不是4也不是8的倍数,

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。