CUDA算子：reduce优化

2_33_

于 2024-06-04 20:40:28 发布

阅读量1.4k

点赞数 21

文章标签：人工智能大数据

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_56047026/article/details/139053428

版权

如何对GPU中的reduce算法进行优化。官方地址

https://developer.download.nvidia.cn/assets/cuda/files/reduction.pdf

reduce算法的本质： $x = x_{0}\bigotimes x_{1}\bigotimes x_{2}...\bigotimes x_{n-1}\bigotimes x_{n}$

并行算法设计

GPU中，reduce采用了树形的计算方式

从上到下，将数据不断累加，直到得出最后的结果，25。GPU没有针对global数据的同步操作，只能针对block的数据进行同步。所以将reduce分为两个阶段，示意图如下：

假设给定一个长度为N的数组，需要计算该数组的所有元素之和。首先需要将数组分为m个小份。在第一阶段，开启m个block计算出m个小份的reduce值。在第二阶段，使用一个block将m个小份再次进行reduce，得到最终结果。由于第二段本质上可以调用第一阶段的kernel，所以本文只探索第一阶段的优化技巧。

kernel接口

__global__void reduce(T *input, T* output)

input：输入的数组，一个长度为N的数组；output：输出的数组，第一阶段的结果，长度为M的数组。

在开始CUDA编程前，设置三个参数：

1.BlockNum：开启的block数量，即M，代表需要将数组切成几份

2.Thread_per_block:每个block中开启的线程束，一般：128，256，512，1024

3.Num_per_block:每个block需要进行reduce操作的长度

其中：BlockNum*Num_per_block = N

**reduce baseline算法：if (tid%(2*s)==0)**

三个步骤：

1.将数据load至shared memory中

2.在shared memory中对数据进行reduce操作

3.将最后的结果写回global memory中。

在第一个步骤中，让Num_per_block和Thread_per_block一致，每个block设置256个线程，一个block负责256个数据的reduce工作。

假设需要处理32M（ $2^{5}*2^{20}$ ）的数据，则有128K（ $2^{7}*2^{10}$ ）个block。

tid：线程号；i：原始数组中的索引号。第tid号线程将第i号的数据从global中取出，放到shared memory的第tid元素中。比如在第0号block中，0号线程将0号元素取出，放到shared memory的第0号位置。

从硬件角度分析，为了执行代码，GPU需要分配存储资源和计算资源。存储资源包括在global memory中分配的一块32M*sizeof（float）的空间以及在shared memory中分配的256*sizeof（float）的空间。shared

最低0.47元/天解锁文章

博客等级

码龄4年

48
原创

606
点赞

646
收藏

507
粉丝

关注

私信

热门文章

最新评论

二刷链表.移除链表元素；链表增删改查；链表翻转；两两交换链表中的节点；删除链表的倒数第N个节点；链表相交；环形链表
CSDN-Ada助手: 恭喜作者第11篇博客的问世！你对链表相关操作的总结非常全面，内容涵盖了移除元素、增删改查、翻转、两两交换、删除倒数第N个节点、链表相交和环形链表等多个方面，让读者受益匪浅。希望你能继续保持写作的热情，不断分享自己的学习心得。或许下一步可以深入探讨链表的高级应用或者结合其他数据结构进行深入分析，相信会给读者带来更多启发和帮助。加油！期待你更多精彩的内容！
数组6.螺旋矩阵
CSDN-Ada助手: 恭喜您发布了第10篇博客，“数组6.螺旋矩阵”！持续创作真的不容易，您的努力和热情让我深受启发。接下来，我建议您可以尝试挑战更多复杂的数组问题，或者探索一些与螺旋矩阵相关的算法思想，以丰富您的知识和经验。期待您更多精彩的作品，谢谢您的分享！
三线性插值pytorch+cuda加速
CSDN-Ada助手: 恭喜您发布了新的博客！看到您在三线性插值上的研究，真是让人佩服。不过，如果可能的话，不妨考虑分享一些关于如何优化算法性能、如何提高代码的可读性等方面的内容，这样更能帮助更多的读者理解和应用您的研究成果。期待您更多精彩的创作！祝您继续取得成功！
3.1.1机器学习系统编程模型的演进
CSDN-Ada助手: 恭喜用户发布了第7篇博客！文章内容对于机器学习系统编程模型的演进进行了探讨，很有深度和见解。希望在未来的创作中可以继续深挖这一主题，或者尝试探讨一些相关领域的发展趋势和应用案例，让读者能够更全面地了解机器学习领域的发展动态。期待您的下一篇博客！
2.3.机器学习框架的基本组成原理
CSDN-Ada助手: 恭喜用户写了第6篇博客，标题为“2.3.机器学习框架的基本组成原理”！文章内容深入浅出，对机器学习框架的基本组成原理进行了详细解读，让读者受益匪浅。希望用户能够继续保持创作的热情和努力，深入挖掘更多有关机器学习的知识，为读者呈现更多有价值的内容。期待用户的下一篇文章，加油！

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。