SM：显卡里的「霍格沃茨」，如何把数据变成魔法咒语？

goodluckyaa

已于 2025-05-04 10:46:16 修改

阅读量800

点赞数 27

分类专栏： CUDA 文章标签： gpu算力

于 2025-05-04 10:38:54 首次发布

本文链接：https://blog.csdn.net/m0_51698155/article/details/147692289

版权

CUDA 专栏收录该内容

8 篇文章

订阅专栏

GPU里的「魔法工厂」：SM流多处理器如何让显卡变身算力狂魔？

你打游戏时有没有想过：为什么显卡能一秒渲染几百万个多边形？
你跑AI炼丹时有没有疑惑：为什么GPU能比CPU快100倍？
答案藏在显卡内部一个叫SM（Streaming Multiprocessor，流多处理器)的「魔法车间」里。
今天我们就掀开GPU的“底裤”，看看SM如何用「线程兵法」统治算力江湖！

一、SM是什么？显卡里的「富士康流水线」

如果把GPU比作一座工厂，SM就是流水线上的超级车间。

CPU：像一个全能学霸，但一次只能认真做1-2件事（单线程性能强，但核心少）。
GPU：像1万个摸鱼打工人，但每人只重复拧螺丝（专为并行计算而生）。
而SM，就是管理这群打工人的「车间主任」！

举个栗子：
你要处理一张4K图片（884万个像素）。

CPU：哭着说：“我一个一个像素处理，得拧884万次螺丝…”
GPU（SM版）：“我们车间有32组流水线，每组32人，大家一起拧，秒完！”

二、SM的「魔法值」：硬件黑科技拆解

每个SM都是一台精密仪器，主要装备如下：

1. CUDA核心：流水线上的「工具人」

每个SM有几十到上百个CUDA核心（比如NVIDIA A100的SM有64个）。
它们只干两件事：算数（加减乘除）和搬砖（读写数据）。
但胜在人多势众，且高度服从命令（并行执行指令）！

2. Warp调度器：监工头子的「时间管理术」

SM会把32个线程打包成一个Warp（线程束），像军训时的方阵。
Warp调度器：“第1排算数，第2排等数据，第3排… 发什么呆？给我动起来！”
目标：让所有CUDA核心永远在干活，拒绝摸鱼！

3. 共享内存 & 寄存器：车间里的「秘密小黑板」

共享内存：同一个SM内的线程可共用的小黑板（速度快，但容量小）。
- 适合放团队合作的临时数据（比如合力算一个矩阵）。
寄存器：每个线程的私人储物柜（极致速度，但空间更小）。
- 你的计算中间结果，别人休想偷看！

三、SM的「线程兵法」：如何管理上万个线程？

假设你要让GPU处理一个游戏场景（几百万个三角形）：

任务拆分：把计算拆成N个线程块（Block），每个块包含几百个线程。
车间分配：SM们举手：“我来扛这个块！我来扛那个块！”
流水线作战：
- SM把线程块切成Warp，塞进CUDA核心。
- 遇到数据延迟（比如等显存数据），立马切换其他Warp顶上（名曰Latency Hiding）。
- 最终成果：SM的CUDA核心利用率接近100%，CPU看了直呼“内卷”！

人类语言翻译：