CUDA学习——Chapter 3（7）归约问题（2）相邻归约及交错归约

最新推荐文章于 2023-12-19 17:31:30 发布

KarK_Li

最新推荐文章于 2023-12-19 17:31:30 发布

阅读量473

点赞数

分类专栏： CUDA 文章标签： CUDA C 并行计算

本文链接：https://blog.csdn.net/weixin_40427089/article/details/90349448

版权

本文深入探讨CUDA并行归约优化，分析相邻归约和交错归约的实现，通过实例展示了优化后的性能提升，指出优化关键在于提高SM中的线程束占用率和减少全局内存访问延迟。

摘要由CSDN通过智能技术生成

第三章

并行归约的分化及相邻归约的优化

在上一篇的并行归约里面，我们要注意这样一条语句：

if ((tid % (2*stride))==0)

我们之前曾经讲过线程束分化的问题——当一个线程束里面并不是全部线程都是活跃的时候，我们称这个线程束是分化的。而在上述并行归约中，在第一次计算的时候只有1/2（甚至更少）的线程是活跃的，第二次只有1/4，第三次只有1/8，以此类推。

要改变这种情况，就必须让tid小的线程先被利用，这样可以让一些线程束是完全空闲的而不是分化的，并且提高SM中的占用率。

其思路如图3-23所示：

提高并行归约中的占用率
还是老样子，我们先把改进后的设备端代码贴出来，再一点点分析这个代码：

__global__ void reduceNeighoredLess(int *g_idata,int *g_odata,unsigned int n)
{
   
	unsigned int tid=threadIdx.x;
	unsigned int idx=blockIdx.x*blockDim.x+threadIdx.x;

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

KarK_Li

关注关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

CUDA学习——Chapter 3（7）归约问题（1）相邻归约及并行归约

中东第一水比AI的博客

05-19

837

第三章归约问题首先来介绍一个并行计算的案例：有一个长度为n的数组L，求他们的和。如果按顺序叠加，那么时间复杂度就是O(n)。伪代码就是： count←0 for i←1 to n count+=L[i] return count 那还有一种在串行是O(n)，在并行上可以是⌈log2n⌉\left \lceil log_2n \right \rceil⌈log2n⌉的算法，称为并行归...

CUDA中的归约

weixin_34186931的博客

12-29

316

CUDA编程实战书中的乘方和解决办法：对一个数组执行某种计算，然后产生一个更小的结果数组。由一个线程在共享内存上进行迭代并计算出总和值。而如果用并行，所花时间就与数组长度的对数成正比。代码的思想是，每个线程将cache[]中的两个值加和，然后结果保存回cache[]。由于每个线程都将两个值合并为一个值，那么在完成这个步骤后，得到的结果数量就是计算开始时数值数量的一半。在下一个步骤中，我...

参与评论您还未登录，请先登录后发表或查看评论

CUDA编程07——向量求和（并行规约，交错配对）

不少年快跑的专栏

12-03

623

在CUDA编程06——向量求和（并行规约，相邻配对）中介绍了最简单向量求和规约算法。这里补充一个概念：关于warp和half-warp 一个warp包含32个threads。warp是调度和执行的基本单位，half-warp是存储器操作的基本单位，这两个非常重要。因此上例中可以看到，由于采用了相邻配对，大多数的累加线程都是在不同的warp内，因此会需要更多的调度开销。因此可以考虑采用交错配对的方式，让那些已经完成了求和任务的线程不在调度。如下图所示：核函数代码 // de.

CUDA编程实例3-并行归约问题

weixin_44911248的博客

09-28

1068

CUDA编程实例--并行归约优化问题

CUDA并行规约(交错配对-展开线程）

武泗海的博客

12-17

840

当线程执行规约函数的循环时，当只剩下一个线程束（warp=32,）,甚至更少的时候，可以将后续的循环展开，及32 16 8 4 2 1的循环直接展开书写。这样处理可以避免循环控制和线程同步逻辑。 #include "cuda_runtime.h" #include "device_launch_parameters.h" #include #include "math.h" #i

cuda中循环展开和并行归约的代码理解及可视化辅助理解

最新发布

partyanimalw的博客

12-19

595

首先列出参考文献：代码部分：会了么的个人空间-会了么个人主页-哔哩哔哩视频 (bilibili.com)图片及部分理解部分：Cuda C编程权威指南1.并行规约分化+循环展开-CSDN博客逻辑概念上，grid>block>thread也就是，网格>线程块>线程每个核函数的启动都对应着一个grid，grid中的所有block共享全局内存，每个block又是由许多线程构成的（block内的线程共享共享内存）。CUDA中SIMD的基本单位是一个warp（线程束一般是由32个线程组成，共享寄存器）。threadId

Verilog HDL归约操作符

12-09

2. **归约与非(~&)**: 这个操作符是归约与的非操作，即对每一位执行逻辑与非操作。如果所有位都是0，结果为1；如果有任何一位是1，结果为0。同样，存在x或z时，结果也会是x或z。对于A = 'b0110，`~& A`的结果为1，...

数据挖掘化功大法（14）——数据整理与数据归约.docx

12-23

在《数据挖掘化功大法（14）——数据整理与数据归约》中，重点讲述了如何整理数据以及如何通过数据归约来优化数据挖掘的过程。首先，数据整理是数据挖掘前的重要步骤。在这个过程中，我们需要整合来自不同源头、...

CUDA并行规约(交错配对-完全展开-终极版）

武泗海的博客

12-17

1242

通过前面的文章，我们对32以下的迭代循环进行了展开处理，实际上，由于线程块的长度限制（GTX1050Ti是1024），可以说循环次数是确定的，因此可以将循环完全展开，即 1024 512 256 128 64 都可以展开计算，唯一需要注意的每次计算之后都要进行同步，原因在前文已有解释。下面给出代码。 #include "cuda_runtime.h" #include "device_lau

人工智能--问题规约求解方法

Meskjei的博客

06-08

4262

A[toc] 问题规约法是不同于状态空间法的另一种形式化方法，其基本思想是对问题进行分解或变换，将它转换为一系列较简单的问题。问题的分解与等价变换分解如果一个问题P可以规约为一组子问题$P_1,P_2,...,P_n$，并且当所有子问题$P_i$都有解时，原问题才有解。任何一个子问题无解都会导致原问题无解，则称此种规约为问题的分解，即分解所得到的子问题的“与”与原问题P等价。等价变换如果...

CUDA编程06——向量求和（并行规约，相邻配对）

不少年快跑的专栏

12-03

1617

并行规约通常用于处理大输入数据集，将一组输入值规约一个值。数据特点：（1）对于数据集中的元素没有顺序要求。（2）可将数据分为若干小集合，每个线程处理一个集合。操作可以是：求最大值（Max）、求最小值（Min）、求和（Sum）、求乘（Product）。并行规约求和规约求和是常见应用，将输入数据求和得到一个值。如下面简单例子所示：规约求和的最简单思想是：先两两求和，然后再两两直至得到最后结果。核函数代码 // device code __global__ vo..

cuda编程_CUDA编程入门（四）并行归约算法

weixin_39517054的博客

11-15

307

这一篇我们一起学习一下如何使用CUDA实现并行归约算法。首先我们要知道什么是并行归约。并行归约（Reduction）是一种很基础的并行算法，简单来说，我们有N个输入数据，使用一个符合结合律的二元操作符作用其上，最终生成1个结果。这个二元操作符可以是求和、取最大、取最小、平方、逻辑与或等等。我们以求和为例，假设输入如下：int array[8] = [3, 1, 7, 0, 4, 1, 6, 3]...

CUDA图像处理 | 模板匹配

【黑键】

09-10

2936

模板匹配 OpenCV中的模板匹配该部分转载自【OpenCV3】模板匹配——cv::matchTemplate()详解匹配方法 cv::TM_SQDIFF：该方法使用平方差进行匹配，因此最佳的匹配结果在结果为0处，值越大匹配结果越差。 cv::TM_CCORR：相关性匹配方法，该方法使用源图像与模板图像的卷积结果进行匹配，因此，最佳匹配位置在值最大处，值越小匹配结...

CUDA学习之CUDA执行模型--part4

weixin_42764932的博客

04-02

404

文章目录3.4 避免分支分化3.4.1 并行归约问题 3.4 避免分支分化有时，控制流依赖于线程索引。线程束中的条件执行可能引起线程束分化，这会导致内核性能变差。通过重新组织数据的获取模式，可以减少或避免线程束分化。在本节里，将会以并行归约为例，介绍避免分支分化的基本技术。 3.4.1 并行归约问题 ...

CUDA中并行规约（Parallel Reduction）的优化

weixin_30374009的博客

11-08

569

转自：http://hackecho.com/2013/04/cuda-parallel-reduction/ Parallel Reduction是NVIDIA-CUDA自带的例子，也几乎是所有CUDA学习者的的必看算法。在这个算法的优化中，Mark Harris为我们实现了7种不同的优化版本，将Bandwidth几乎提高到了峰值。相信我们通过仔细研读这个过程，一定能对CUDA程序的优化有更...

CUDA并行规约(相邻配对)

武泗海的博客

12-17

643

#include "cuda_runtime.h" #include "device_launch_parameters.h" #include #include "math.h" #include "stdlib.h" //错误检查的宏定义 #define CHECK(call) \ { \ const cudaError_t status=cal

CUDA并行规约(交错配对）

武泗海的博客

12-17

886

按照前文多线程的交错配对方式实现并行规约求和方式，实现CUDA版本的并行规约求和，由于这种方式的规约可以避免线程束的分化，因此不需要进行类似于相邻配对那种方式的优化。交错与优化相邻模式相比，计算效率提升到1.14倍，性能提高有限，这主要受限于全局内存的加载和存储模式。并行规约的示意图： #include "cuda_runtime.h" #include "device_lau

CUDA学习——Chapter 3（1）流式多处理器（SM）介绍

中东第一水比AI的博客

02-01

5437

第三章上一章我们讨论了不同内存布局对核函数性能的影响，这一章我们就从硬件的角度，去探究为什么布局会导致核函数运行的不同。 SM简介上一节我们说到deviceProp的时候，不知道会不会有读者有疑惑，为什么突然会提到multiprocessor（多处理器）这个概念，这个概念又是什么？其实这个multiprocessor，就是我们这一篇推文要介绍的SM。先来给大家看看SM的结构：这是Ferm...

CUDA并行归约优化策略详解：避免全局同步挑战

在CUDA编程中，优化并行规约（Parallel Reduction）是一项关键且常见的任务，特别是在处理大数据集时，它作为性能优化的重要案例。并行规约涉及在一个多线程环境中，每个线程对数组元素执行某种操作，最终合并所有...