OpenCL Reduction操作与group组内同步(barrier)操作的理解

OpenCL Reduction操作与group同步
先解释一下什么是reduction操作和barrier操作

  • Reduction操作:规约操作就是由多个数生成一个数,如求最大值、最小值、向量点积、求和等操作,都属于这一类操作。
  • group同步:OpenCL只提供了工作组内的各线程之间的同步机制,并没有提供所有线程的同步。提供组内item-work同步的方法:

void barrier (cl_mem_fence_flags flags)

参数说明:
  cl_mem_fence_flags 可以取CLK_LOCAL_MEM_FENCE、CLK_GLOBAL_MEM_FENCE

函数说明:
  一个work-group中所有work-item遇到barrier方法,都要等待其他work-item也到达该语句,才能执行后面的程序;还可以组内的work-item对local or global memory的顺序读写操作。
  在这里插入图片描述

代码示例讲解
__kernel void reduction_scalar(__global float* data, 
      __local float* partial_sums, __global float* output) {

   int lid = get_local_id(0);
   int group_size = get_local_size(0);

   partial_sums[lid] = data[get_global_id(0)];
   barrier(CLK_LOCAL_MEM_FENCE);

   for(int i = group_size/2; i>0; i >>= 1) {
      if(lid < i) {
         partial_sums[lid] += partial_sums[lid + i];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
   }

   if(lid == 0) {
      output[get_group_id(0)] = partial_sums[0];
   }
}

这是一个标准的reduction算法和goup同步的一个kernel 示例,很多的书上或者教程都是一这个示例来讲解的。我这边会详细的,从我的理解上讲解什么是reduction和barrier。
从第一张图片可以清楚的看到barrier 的作用,在组内,每个工作项想要执行下一条指令代码,必须等待同组内所有工作项都完成该操作。
在这里插入图片描述

   partial_sums[lid] = data[get_global_id(0)];
   barrier(CLK_LOCAL_MEM_FENCE);

该行代码是将所有全局工作项数据分配到组内的工作项后,开始下一步操作。实际的数据情况如下图。

   for(int i = group_size/2; i>0; i >>= 1) {
      if(lid < i) {
         partial_sums[lid] += partial_sums[lid + i];
      }
      barrier(CLK_LOCAL_MEM_FENCE);
   }

这段代码就是reduction,每次对半,循环右移一位。
在这里插入图片描述
每次循环,都会做一次barrier操作,只到i不满足条件,即突出,那么最后每组数组就会产生一个值。
这个就是典型的reduction. 输入为数组,输出为一个标量。

output[get_group_id(0)] = partial_sums[0];

代码最后,将数据从local memry 赋值到share memry。 cpu即可读到数据。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

疯狂的蕉尼基

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值