cuda中的cooperative_groups

背景

最近看到一个代码cooperative_groups.this_grid().sync()很好奇,这里好好梳理一下

分析

以前block内部的同步是用syncthreads(), block之间没有提供同步的接口,这样是合理的,假如有block间同步API的话,如果block太多,block_n要等block_0算完退出后才能进入sm, 但是block_0为了同步又要等block_n,这样就锁死了,本质原因是因为gpu的逻辑和cpu不一样,gpu单个block寄存器的值不会暂存到显存里来切换block_0。那么问题来了,这个this_grid().sync() API咋用?

实验

#include <stdio.h>
#include <cuda_runtime.h>
#include <cooperative_groups.h>

namespace cg = cooperative_groups;

__global__ void kernel(int* data) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    data[tid] = tid * tid;

    cg::this_grid().sync();
     if (blockIdx.x == 0 && threadIdx.x == 0) {
        for (int i = 0; i < gridDim.x * blockDim.x; ++i) {
            printf("%d ", data[i]);
        }
        printf("\n");
    }

}

template<typename... Types>
inline void launch_coop(void(*f)(Types...),
                        dim3 gridDim, dim3 blockDim, cudaStream_t stream,
                        Types... args)
{
    void* va_args[sizeof...(args)] = { &args... };
    (cudaLaunchCooperativeKernel((const void*)f, gridDim, blockDim,
                                        va_args, 0, stream));
}

int main() {
    const int N = 8;
    int* d_data;
    cudaMalloc((void**)&d_data, N * sizeof(int));

    dim3 block(8);
    dim3 grid(20000);
        launch_coop(kernel, grid, block, 0, d_data);
        cudaDeviceSynchronize();
		cudaError_t err = cudaGetLastError();
		printf("$$$$$$$$$$$$$$: %s \n",cudaGetErrorString(err));
    cudaFree(d_data);

    return 0;
}

结论

实验结果发现,如果想使用这个API,必须保证所有的block在加载初期就是可以全部加载到sm中的,如果不行这个kernel launch就会失败,报错“too many blocks in cooperative launch”, 这个就比较合理了。

思考

这个api主要是避免小应用需要启用多个kernel来同步数据,因为单个kernel的block间无法同步(这个说法不是很准确),启动多个kernel不仅耗时,而且来回读写也耗时,所以小任务如果需要同步,可以考虑用这个API, 但是这个玩意是不是很耗时就没验证过了,有兴趣的可以试试。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值