CUDA 的 Threading：Block 和 Grid 的設定與 Warp

最新推荐文章于 2022-09-12 17:54:28 发布

jasonscau

最新推荐文章于 2022-09-12 17:54:28 发布

阅读量1k

点赞数

分类专栏： cuda资料文章标签： cuda thread

cuda资料专栏收录该内容

6 篇文章 0 订阅

订阅专栏

CUDA 的 device 實際在執行的時候，會以 Block 為單位，把一個個的 block 分配給 SM 進行運算；而 block 中的 thread，又會以warp為單位，把 thread 來做分組計算。目前 CUDA 的 warp 大小都是 32，也就是 32 個 thread 會被群組成一個 warp來一起執行；同一個 warp 裡的 thread，會以不同的資料，執行同樣的指令。此外，在 Compute Capability 1.2的硬體中，還加入了 warp vote 的功能，可以快速的進行 warp 內的簡單統計。

基本上 warp 分組的動作是由 SM自動進行的，會以連續的方式來做分組。比如說如果有一個 block 裡有 128 個 thread 的話，就會被分成四組 warp，第 0-31個 thread 會是 warp 1、32-63 是 warp 2、64-95 是 warp 3、96-127 是 warp 4。

而如果 block 裡面的 thread 數量不是 32 的倍數，那他會把剩下的 thread 獨立成一個 warp；比如說 thread數目是 66 的話，就會有三個 warp：0-31、32-63、64-65。由於最後一個 warp 裡只剩下兩個thread，所以其實在計算時，就相當於浪費了 30 個 thread 的計算能力；這點是在設定 block 中 thread數量一定要注意的事！

一個 SM 一次只會執行一個 block 裡的一個 warp，但是 SM 不見得會一次就把這個 warp的所有指令都執行完；當遇到正在執行的 warp 需要等待的時候（例如存取 global memory 就會要等好一段時間），就切換到別的warp 來繼續做運算，藉此避免為了等待而浪費時間。所以理論上效率最好的狀況，就是在 SM 中有夠多的 warp可以切換，讓在執行的時候，不會有「所有 warp 都要等待」的情形發生；因為當所有的 warp 都要等待時，就會變成 SM 無事可做的狀況了～

實際上，warp 也是 CUDA 中，每一個 SM 執行的最小單位；如果 GPU 有 16 組 SM 的話，也就代表他真正在執行的 thread數目會是 32*16 個。不過由於 CUDA 是要透過 warp 的切換來隱藏 thread的延遲、等待，來達到大量平行化的目的，所以會用所謂的 active thread 這個名詞來代表一個 SM 裡同時可以處理的 thread數目。
而在 block 的方面，一個 SM 可以同時處理多個 thread block，當其中有 block 的所有thread 都處理完後，他就會再去找其他還沒處理的 block 來處理。假設有 16 個 SM、64 個 block、每個 SM可以同時處理三個 block 的話，那一開始執行時，device 就會同時處理 48 個 block；而剩下的 16 個 block 則會等SM 有處理完 block 後，再進到 SM 中處理，直到所有 block 都處理結束。

建議的數值？
在 Compute Capability 1.0/1.1 中，每個 SM 最多可以同時管理 768 個 thread（768 active threads）或 8 個 block（8active blocks）；而每一個 warp 的大小，則是 32 個 thread，也就是一個 SM 最多可以有 768 / 32 =24 個 warp（24 active warps）。到了 Compute Capability 1.2 的話，則是 active warp則是變為 32，所以 active thread 也增加到 1024。

在這裡，先以 Compute Capability1.0/1.1 的數字來做計算。根據上面的數據，如果一個 block 裡有 128 個 thread 的話，那一個 SM 可以容納 6 個block；如果一個 block 有 256 個 thread 的話，那 SM 就只能容納 3 個 block。不過如果一個 block 只有64 個 thread 的話，SM 可以容納的 block 不會是 12 個，而是他本身的數量限制的 8 個。

因此在Compute Capability 1.0/1.1 的硬體上，決定 block 大小的時候，最好讓裡面的 thread 數目是 warp數量（32）的倍數（可以的話，是 64 的倍數會更好）；而在一個 SM 裡，最好也要同時存在複數個 block。如果再希望能滿足最多 24 個warp 的情形下，block 裡的 thread 數目似乎會是 96（一個 SM 中有 8 個 block）、128（一個 SM 中有 6個 block）、192（一個 SM 中有 4 個 block）、256（一個 SM 中有 3 個 block）這些數字了～

而官方的建議則是一個 block 裡至少要有 64 個 thread，192 或 256 個也是通常比較合適的數字（請參考 Programming Guide）。

但是是否這些數字就是最合適的呢？其實也不盡然。因為實際上，一個 SM 可以允許的 block 數量，還要另外考慮到他所用到 SM的資源：shared memory、registers 等。在 G80 中，每個 SM 有 16KB 的 shared memory 和8192 個 register。而在同一個 SM 裡的 block 和 thread，則要共用這些資源；如果資源不夠多個 block使用的話，那 CUDA 就會減少 Block 的量，來讓資源夠用。在這種情形下，也會因此讓 SM 的 thread 數量變少，而不到最多的768 個。

比如說如果一個 thread 要用到 16 個 register 的話（在 kernel 中宣告的變數），那一個SM 的 8192 個 register 實際上只能讓 512 個 thread 來使用；而如果一個 thread 要用 32 個register，那一個 SM 就只能有 256 個 thread 了～而 shared memory 由於是 thread block共用的，因此變成是要看一個 block 要用多少的 shread memory、一個 SM 的 16KB 能分給多少個 block 了。

所以雖然說當一個 SM 裡的 thread 越多時，越能隱藏 latency，但是也會讓每個 thread 能使用的資源更少。因此，這點也就是在最佳化時要做取捨的了。

jasonscau

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CUDA 的 Threading：Block 和 Grid 的設定與 Warp

CUDA 的 device 實際在執行的時候，會以 Block 為單位，把一個個的 block 分配給 SM 進行運算；而 block 中的 thread，又會以warp為單位，把 thread 來做分組計算。目前 CUDA 的 warp 大小都是 32，也就是 32 個 thread 會被群組成一個 warp來一起執行；同一個 warp 裡的 thread，會以不同的資料，執行同樣
复制链接

扫一扫

专栏目录