cuda中的cooperative_groups

背景

最近看到一个代码cooperative_groups.this_grid().sync()很好奇,这里好好梳理一下

分析

以前block内部的同步是用syncthreads(), block之间没有提供同步的接口,这样是合理的,假如有block间同步API的话,如果block太多,block_n要等block_0算完退出后才能进入sm, 但是block_0为了同步又要等block_n,这样就锁死了,本质原因是因为gpu的逻辑和cpu不一样,gpu单个block寄存器的值不会暂存到显存里来切换block_0。那么问题来了,这个this_grid().sync() API咋用?

实验

#include <stdio.h>
#include <cuda_runtime.h>
#include <cooperative_groups.h>

namespace cg = cooperative_groups;

__global__ void kernel(int* data) {
    int tid = threadIdx.x + blockIdx.x * blockDim.x;
    data[tid] = tid * tid;

    cg::this_grid().sync();
     if (blockIdx.x == 0 && threadIdx.x == 0) {
        for (int i = 0; i < gridDim.x * blockDim.x; ++i) {
            printf("%d ", data[i]);
        }
        printf("\n");
    }

}

template<typename... Types>
inline void launch_coop(void(*f)(Types...),
                        dim3 gridDim, dim3 blockDim, cudaStream_t stream,
                        Types... args)
{
    void* va_args[sizeof...(args)] = { &args... };
    (cudaLaunchCooperativeKernel((const void*)f, gridDim, blockDim,
                                        va_args, 0, stream));
}

int main() {
    const int N = 8;
    int* d_data;
    cudaMalloc((void**)&d_data, N * sizeof(int));

    dim3 block(8);
    dim3 grid(20000);
        launch_coop(kernel, grid, block, 0, d_data);
        cudaDeviceSynchronize();
		cudaError_t err = cudaGetLastError();
		printf("$$$$$$$$$$$$$$: %s \n",cudaGetErrorString(err));
    cudaFree(d_data);

    return 0;
}

结论

实验结果发现,如果想使用这个API,必须保证所有的block在加载初期就是可以全部加载到sm中的,如果不行这个kernel launch就会失败,报错“too many blocks in cooperative launch”, 这个就比较合理了。

思考

这个api主要是避免小应用需要启用多个kernel来同步数据,因为单个kernel的block间无法同步(这个说法不是很准确),启动多个kernel不仅耗时,而且来回读写也耗时,所以小任务如果需要同步,可以考虑用这个API, 但是这个玩意是不是很耗时就没验证过了,有兴趣的可以试试。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
`cuda::memcpy_async` 和 `cooperative_groups::memcpy_async` 都是异步的内存拷贝函数,但是它们的使用场景和特点略有不同。 `cuda::memcpy_async` 是 CUDA Runtime API 提供的异步内存拷贝函数,它可以在主机和设备之间进行数据拷贝,并且可以在拷贝过程执行其他的 CUDA 操作。这个函数的使用方法和 `cudaMemcpy` 类似,但是需要额外传入一个 `cudaStream_t` 参数来指定使用的 CUDA 流。与 `cudaMemcpy` 不同的是,`cuda::memcpy_async` 不会阻塞主机线程,而是立即返回并在后台执行数据拷贝。因此,它可以提高程序的并发性能,特别是在数据量较大的情况下。 `cooperative_groups::memcpy_async` 是 CUDA cooperative groups 库提供的异步内存拷贝函数,它是在协作线程组(cooperative thread groups)进行的数据拷贝。与 `cuda::memcpy_async` 不同的是,这个函数只能在协作线程组使用,而且需要传入一个 `cooperative_groups::coalesced_group` 参数来指定线程组。由于协作线程组的线程可以协同工作,因此这种方式可以进一步提高内存拷贝的效率。 综上所述,`cuda::memcpy_async` 和 `cooperative_groups::memcpy_async` 都是异步内存拷贝函数,但是使用场景和特点略有不同。`cuda::memcpy_async` 可以在主机和设备之间进行数据拷贝,并且可以在拷贝过程执行其他的 CUDA 操作;而 `cooperative_groups::memcpy_async` 则是在协作线程组进行的数据拷贝,可以进一步提高内存拷贝的效率。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值