CUDA规约前缀求和问题

CUDA规约前缀求和问题

   前缀求和问题算是个比较常见的问题了,这周项目中遇到了个这样的问题,查找数组a中所有值为M的元素,
   用数组b将依次存储这些元素的下标。
   这也算是比较经典的前缀求和的问题了。

1.问题的求解思路

    并发求解这个数组的思路是这样的,判断所求值与当前数组值是否相等,使用临时变量temp存储,如果
    相等设为1,否则为零,然后对所有线程中的temp进行前缀求和,我们通过求解前缀和结果,可以
    发现,当前线程对应的前缀和值-1,即为按次序数组b中所求对应线程(数组a的下标)。

2.解决代码

    __global__ void scan(int *a,int *b,int equal_value, int N)
   {
      extern    __share__ int share_sum[];
      int tid=thread.x+blockIdx.x*blockDim.x;
      int temp1,temp=0;
      int i=0;
      int t_temp;
      int laneid=thread.x&0x1f,warpid=thread.x/warp_size;
      if((tid<N)&&(a[tid]==equal_value))
      {
        temp=1;
      }
      temp1=temp;//作为标记,用来标记是否写入
/**************这里用来进行前缀求和,将一个线程束中的值先进行求和,然后再对所有线程求和***************/  
    for(i=1;i<warp_size;i*=2)
    {
        t_temp = __shfl_up(temp,i,warp_size);
         if(laneid>=i)
         {
            temp+= t_temp;
         }               
     }
        //这里得出每个线程束的前缀和,且最后一个为最大
        if(laneid==(warp_size-1))
        {
            share_sum[warpid]=temp;
        }
        __sychthread();
        if(!tid)
        {
             for(i=1;i<(N+blockDim.x-1)/warp_size;i++)
            {
                share_sum[i]=share_sum[i]+share_sum[i-1];
            }
        }
       __sychthread();
        if((laneid!=(warp_size-1))&&(warpid>0))
        {
            temp+=share_sum[warpid-1];
        }
        __sychthread();
        if(temp1)
        {
            b[temp-1]=tid;
        }
  }

    这段代码在调试的时候一直出问题,从第一个block 中读取的数据是没有错的,但此后
    的都是0,我只好厚着脸皮请教师兄。师兄给出的结果是出现了读后写的问题,劝我说这样
    写虽然效率高,但只能块同步而不能所有线程同步,让我试着分开来写,于是我把程序分
    成了三段以确保所有线程的同步,果然就对了。感谢师兄!
一个简单的 CUDA 向量元素求和算法如下: 1. 将输入向量拷贝到设备(GPU)内存中。 2. 在设备上分配用于输出的内存空间。 3. 在设备上启动一个多个线程的 GPU 核心,每个线程处理向量中的若干个元素。 4. 每个线程计算它所处理的元素的和,并将结果存储在共享内存中。 5. 使用原子操作将每个线程的局部和加入到全局和中。 6. 将全局和从设备内存拷贝回主机(CPU)内存中。 下面是一个简单的 CUDA C 实现: ```cuda __global__ void sum_kernel(float* input, float* output, int n) { __shared__ float sdata[256]; int tid = threadIdx.x; int i = blockIdx.x * blockDim.x + threadIdx.x; sdata[tid] = (i < n) ? input[i] : 0; __syncthreads(); for (int s = 1; s < blockDim.x; s *= 2) { if (tid % (2*s) == 0) { sdata[tid] += sdata[tid + s]; } __syncthreads(); } if (tid == 0) { output[blockIdx.x] = sdata[0]; } } float cuda_sum(float* input, int n) { float* d_input, *d_output; cudaMalloc(&d_input, n*sizeof(float)); cudaMalloc(&d_output, 256*sizeof(float)); cudaMemcpy(d_input, input, n*sizeof(float), cudaMemcpyHostToDevice); int threads_per_block = 256; int blocks_per_grid = (n + threads_per_block - 1)/threads_per_block; sum_kernel<<<blocks_per_grid, threads_per_block>>>(d_input, d_output, n); float* output = (float*) malloc(blocks_per_grid*sizeof(float)); cudaMemcpy(output, d_output, blocks_per_grid*sizeof(float), cudaMemcpyDeviceToHost); float sum = 0; for (int i = 0; i < blocks_per_grid; i++) { sum += output[i]; } cudaFree(d_input); cudaFree(d_output); free(output); return sum; } ``` 该算法使用了线程块和共享内存来并行计算向量元素的和。每个线程块处理一个固定大小的子向量,每个线程计算它所处理的元素的和,并将结果存储在共享内存中。然后,使用原子操作将每个线程的局部和加入到全局和中。最后,将全局和从设备内存拷贝回主机内存中并返回。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值