写了个cuda代码:
const int threads_per_block = 80;
dim3 blocks = dim3((w + threads_per_block - 1) / threads_per_block, (h + threads_per_block - 1) / threads_per_block);
dim3 threads = dim3(threads_per_block, threads_per_block);
int size = w * h;
prob2rgb_kernel<<<blocks, threads, 0, stream>>>(arg_data, rgb, size);
这里的 threads为[80, 80, 1],但是程序没有跳转到cuda代码。
原因
每个block最大的threads数为:2014
Maximum number of threads per block: 1024
这里我们是一个二维的threads
,所以每个维度最大为32.同理三维的也是一样的。