Cuda 程序设计中 Grid 和 Block 维度设置的注意事项

32 篇文章 5 订阅
11 篇文章 1 订阅

1. Cuda 线程的 Grid 架构

Cuda 线程分为 Grid 和 Block 两个级别,Grid、Block、Thread 的关系如下图。

在这里插入图片描述

  • 一个核函数目前只包括一个 Grid,也就是图中的 Grid0。
  • 一个 Grid 可以包括若干 Block,具体数量的上限没有查到。
  • 一个 Block可以最多包括 512 或1024 个 Thread,最新的 GPU 都可以支持 1024 个线程了。

具体可参考下面的资料,感觉没有包含最新的硬件规格,先做参考。
在这里插入图片描述

我写了一个查看自己的GPU参数的程序,提供了源代码和Makefile,可以在自己的操作系统下编译,需要的话自行下载:https://download.csdn.net/download/quicmous/16162178

2. GPU 的 SM 架构

GPU 由多个 SM 处理器构成,一个 SM 处理器包含 8 个 SP 核。一个 SM 处理器可同时处理 32 个线程,实际上就是同一套指令在每个 SP 核上重复 4 次, 这样提交一次任务,8 个SP 核同时就能处理 32 个线程。

在这里插入图片描述

3. Cuda 程序在 GPU 上的运行方式

目前来讲,一个 Cuda 程序就是一个 Grid,一块 GPU 就是一组 SM 处理器。

  • 程序的提交执行过程,就是如何把 Block 分派到 SM 处理器。
  • Block 不可以分割,SM 处理器也不能分割。
  • 一个 SM 处理器可以同时处理多个 Block,这种情况下 Block 需要在其 SM 处理器排队等待调度。

4. 以 Jetson Nano 为例,看如何设置 Grid、Block 维度

Jetson Nano 拥有 16 个 SM 处理器,共 128 个 SP 核。

  • 如果想让每个 SM 处理器都工作,则 Grid 的 Block 的数量最好是 16 的整数倍。这样在整个计算过程中,每个 SM 处理器负载都是一样的。
  • 每个 SM 处理器同时可以处理 32 个线程,因此,Block 中的线程数量最好是 32 的倍数,使得 8 个 SP 核负载均衡。

因此,Jetson Nano 理想划分数据的应该是 16 x 32 x S = 512 x T 这个划分模式。也就是说,理想的数据量应该是 512 的整数倍。

以 1920 x 1080 的图像处理来讲,如果每个像素对应一个线程的话,线程应该按照如下分组:

1920 × 1080 = ( 2 7 × 3 × 5 ) × ( 2 3 × 3 3 × 5 ) 1920\times1080 = (2^7\times3\times5) \times (2^3\times 3^3\times5) 1920×1080=(27×3×5)×(23×33×5)

这里面主要考虑 Block 的维度:包含的线程数量应该是 32 的倍数,同时要小于 512。
于是,

  • Block 的维度是: 2 5 × ( 3 × 5 ) = 32 × 15 2^5\times(3\times5) = 32\times15 25×(3×5)=32×15 个 Thread。
  • Grid 的维度是: ( 2 2 × 3 × 5 ) × ( 2 3 × 3 2 ) = 60 × 72 (2^2\times3\times5)\times(2^3\times3^2) = 60 \times 72 (22×3×5)×(23×32)=60×72 个 Block。

最后再验证一下:

32 × 60 = 1920 15 × 72 = 1080 32\times60=1920 \\ 15\times72=1080 32×60=192015×72=1080

非常完美!

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

许野平

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值