参考
首先列出参考文献:
代码部分:会了么的个人空间-会了么个人主页-哔哩哔哩视频 (bilibili.com)
图片及部分理解部分:Cuda C编程权威指南1.并行规约分化+循环展开-CSDN博客
背景
cuda的执行模型
逻辑概念上,grid>block>thread
也就是,网格>线程块>线程
每个核函数的启动都对应着一个grid,grid中的所有block共享全局内存,每个block又是由许多线程构成的(block内的线程共享共享内存)。
CUDA中SIMD的基本单位是一个warp(线程束一般是由32个线程组成,共享寄存器)。
threadIdx.x:当前线程在线程块中的索引
blockIdx.x:当前线程块的索引
blockDim.x:每个block的线程数
一般在main函数中用下面代码定义:
// initialization int size = 1 << 24; // total number of elements to reduce printf(" with array size %d ", size); // execution configuration int blocksize = 1024; // initial block size
if(argc > 1) { blocksize = atoi(argv[1]); // block size from command line argument } dim3 block (blocksize, 1); dim3 grid ((size + block.x - 1) / block.x, 1); printf("grid %d block %d\n", grid.x, block.x);
以上代码每个block的thread数初始值是1024,但是可以在终端设置大于1的数。
此外,
tid:当前thread在这个block中的id索引