最简示例简介洗牌函数之 __shfl_up_sync() cuda 之 shuffle

Eloudy

已于 2022-03-07 00:35:19 修改

阅读量1.4k

点赞数 1

分类专栏： blas 文章标签：拓扑学 c语言

于 2022-02-07 01:42:44 首次发布

本文链接：https://blog.csdn.net/eloudy/article/details/122803751

版权

blas 专栏收录该内容

65 篇文章 2 订阅

订阅专栏

__shfl_up_sync()

up 是指从取值的线程对齐。

#include <cuda_runtime.h>
#include <stdio.h>
#define warpSize 32


__global__ void scan4(float* a, float* b) {
    int laneId = threadIdx.x & 0x1f;
    float value;

    value = a[laneId];
    value = __shfl_up_sync(0xffffffff, value, 4);
    b[laneId] = value;
}

void printVector(char* desc, float* ptr_vec, unsigned int n){
    printf("%s =\n", desc);

    for(int i=0; i<n; i++){
        printf(" %5.2f ",ptr_vec[i]);
    }

    printf("\n");
}

int main() {

    float* a_h = NULL;
    float* a_d = NULL;
    float* b_h = NULL;
    float* b_d = NULL;

    a_h = (float*)malloc(warpSize*sizeof(float));
    b_h = (float*)malloc(warpSize*sizeof(float));

    for(int i=0; i<warpSize; i++){
        a_h[i] = i+100.0;
    }
    //memset(b_h, 15, warpSize*sizeof(float));
    for(int i=0; i<warpSize; i++){
        b_h[i] = i+100.0;
    }

    printVector("a_h",a_h, warpSize);
    printVector("b_h",b_h, warpSize);

    cudaMalloc((void**)&a_d, warpSize*sizeof(float));
    cudaMalloc((void**)&b_d, warpSize*sizeof(float));

    cudaMemcpy(a_d, a_h, warpSize*sizeof(float), cudaMemcpyHostToDevice);  
    cudaMemcpy(b_d, b_h, warpSize*sizeof(float), cudaMemcpyHostToDevice);  

    scan4<<< 1, warpSize >>>(a_d, b_d);
    cudaDeviceSynchronize();

    cudaMemcpy(b_h, b_d, warpSize*sizeof(float), cudaMemcpyDeviceToHost);

    printVector("b_d", b_h, warpSize);

    cudaFree(a_d);
    cudaFree(b_d);

    return 0;
}

Eloudy

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
最简示例简介洗牌函数之 __shfl_up_sync() cuda 之 shuffle

__shfl_up_sync()up 是指从取值的线程对齐。#include <cuda_runtime.h>#include <stdio.h>#define warpSize 32__global__ void scan4(float* a, float* b) { int laneId = threadIdx.x & 0x1f; float value; value = a[laneId]; value
复制链接

扫一扫