最简示例简介洗牌函数之 __shfl_sync() cuda 之 shuffle

Eloudy

已于 2022-03-07 00:46:59 修改

阅读量3.5k

点赞数 1

分类专栏： cuda 文章标签：蓝桥杯 c语言 c++

于 2022-02-06 20:06:13 首次发布

本文链接：https://blog.csdn.net/eloudy/article/details/122800278

版权

cuda 专栏收录该内容

34 篇文章 2 订阅

订阅专栏

虽然叫做洗牌函数，但是效果只是跟真正的洗牌有点像，但还是不一样。扑克牌不可以复制，但这里的shuffle函数很多时候会复制牌值。

这个函数具有广播功能，当同一个warp内的其他线程想获得某一个特定线程中的某个局部变量的值时，使用__shfl_sync()。

__shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9线程的 value变量的值， return 广播给其他线程

#include <cuda_runtime.h>
//#include <iostream>

#include <stdio.h>
#define warpSize 32

__global__ void bcast(float* a, float* b) {
    int laneId = threadIdx.x & 0x1f;
    float value;

    value = a[laneId];
    value = __shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9线程的value变量的值， return 广播给其他线程
    b[laneId] = value;

}

void printVector(char* desc, float* ptr_vec, unsigned int n){
    printf("%s =\n", desc);

    for(int i=0; i<n; i++){
        printf(" %5.2f ",ptr_vec[i]);
    }

    printf("\n");
}

int main() {

    float* a_h = NULL;
    float* a_d = NULL;
    float* b_h = NULL;
    float* b_d = NULL;

    a_h = (float*)malloc(warpSize*sizeof(float));
    b_h = (float*)malloc(warpSize*sizeof(float));

    for(int i=0; i<warpSize; i++){
        a_h[i] = i+100.0;
    }

    for(int i=0; i<warpSize; i++){
        b_h[i] = i+100;
    }

    printVector("a_h",a_h, warpSize);
    printVector("b_h",b_h, warpSize);

    cudaMalloc((void**)&a_d, warpSize*sizeof(float));
    cudaMalloc((void**)&b_d, warpSize*sizeof(float));

    cudaMemcpy(a_d, a_h, warpSize*sizeof(float), cudaMemcpyHostToDevice);  
    cudaMemcpy(b_d, b_h, warpSize*sizeof(float), cudaMemcpyHostToDevice);  

    bcast<<< 1, warpSize >>>(a_d, b_d);
    cudaDeviceSynchronize();

    cudaMemcpy(b_h, b_d, warpSize*sizeof(float), cudaMemcpyDeviceToHost);

    printVector("b_d", b_h, warpSize);

    cudaFree(a_d);
    cudaFree(b_d);

    return 0;
}

Eloudy

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
最简示例简介洗牌函数之 __shfl_sync() cuda 之 shuffle

虽然叫做洗牌函数，但是效果只是跟真正的洗牌有点像，但还是不一样。扑克牌不可以复制，但这里的shuffle函数很多时候会复制牌值。这个函数具有广播功能，当同一个warp内的其他线程想获得某一个特定线程中的某个局部变量的值时，使用__shfl_sync()。__shfl_sync(0xffffffff, value, 9, 32);//把 laneId == 9线程的 value变量的值， return 广播给其他线程#include <cuda_runtime.h>//#inc
复制链接

扫一扫