cuda中循环展开和并行归约的代码理解及可视化辅助理解

参考

 首先列出参考文献:

代码部分:会了么的个人空间-会了么个人主页-哔哩哔哩视频 (bilibili.com)

图片及部分理解部分:Cuda C编程权威指南1.并行规约分化+循环展开-CSDN博客


背景

cuda的执行模型

逻辑概念上,grid>block>thread

也就是,网格>线程块>线程

每个核函数的启动都对应着一个grid,grid中的所有block共享全局内存,每个block又是由许多线程构成的(block内的线程共享共享内存)。

CUDA中SIMD的基本单位是一个warp(线程束一般是由32个线程组成,共享寄存器)。

threadIdx.x:当前线程在线程块中的索引

blockIdx.x:当前线程块的索引

blockDim.x:每个block的线程数

一般在main函数中用下面代码定义:

    // initialization
    int size = 1 << 24; // total number of elements to reduce
    printf("    with array size %d  ", size);

    // execution configuration
    int blocksize = 1024;   // initial block sizeif(argc > 1)
    {
        blocksize = atoi(argv[1]);   // block size from command line argument
    }

    dim3 block (blocksize, 1);
    dim3 grid  ((size + block.x - 1) / block.x, 1);
    printf("grid %d block %d\n", grid.x, block.x);

以上代码每个block的thread数初始值是1024,但是可以在终端设置大于1的数。

此外,

tid:当前thread在这个block中的id索引

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值