CUDA之Branch/Divergent branches详解

最新推荐文章于 2024-05-28 16:20:29 发布

Bruce_0712

最新推荐文章于 2024-05-28 16:20:29 发布

阅读量2k

点赞数

分类专栏： CUDA

本文链接：https://blog.csdn.net/Bruce_0712/article/details/65713569

版权

36 篇文章 26 订阅

订阅专栏

https://devtalk.nvidia.com/default/topic/463316/branch-divergent-branches/

避免分支之（一）

为了获得最好的性能，就需要避免同一个warp存在不同的执行路径。避免该问题的方法很多，比如这样一个情形，假设有两个分支，分支的决定条件是thread的唯一ID的奇偶性：

[cpp] view plain copy

一种方法是，将条件改为以warp大小为步调，然后取奇偶，如下：

[cpp] view plain copy

$ nvprof --metrics branch_efficiency ./simpleDivergence

Branch Efficiency的定义如下：

我们也可以使用nvprof的inst_per_warp参数来查看每个warp上执行的指令数目的平均值。

[cpp] view plain copy

输出，原来的是新的kernel的两倍还多，因为原来的有许多不必要的操作也执行了：

[cpp] view plain copy

关注

专栏目录