CUDA 编程笔记:GPU 硬件资源

一、前言

        本文主要针对 Nvidia 的 GPU 进行总结,分为流多处理器 SM,线程模型与物理结构和线程束三部分。

二、流多处理器 SM

        物理上,GPU 最基本的处理单元为 SP(streaming processor),又称为 CUDA core,主要包括若干整数型运算的核心、若干单精度浮点数运算的核心、若干双精度浮点数运算的核心、若干单精度浮点数超越函数的特殊函数单元、若干混合精度的张量核心(有伏特架构引进,适用于机器学习)。最后具体的指令和任务都是在 SP 上处理的,GPU 进行并行计算,即为多个 SP 同时做处理。

        而 SM(streaming multiprocessor)则是 GPU 的核心,又称为 GPU 大核。它由一定数量的寄存器、一定数量的共享内存
、常量内存的缓存、纹理内存和表面内存的缓存、L1缓存、线程束(thread warp)调度器、SP 组成。每个流式多处理器可以视为具有较小结构的 CPU,支持指令并行(多发射)。流式多处理器是线程块的运行载体,但一般不支持乱序执行。每个流式多处理器上的单个 Warp 以 SIMD 方式执行相同指令。

        一个典型的 Fermi 架构 SM 包括以下几个组件:

(1)核心SP(CUDA core)

(2)共享内存/一级缓存 (ShareMem/Cache)

(3)寄存器文件 (Register File)

(4)加载/存储单元 (LD/ST)

(5)特殊功能单元 (SFU)

(6)线程束调度器 (Warp Sched)

       

1. GPU中每个SM(流多处理器)都可以支持数百个线程并发(不是并行)执行;

2. 以线程块(block)为单位向 SM 分配资源,多个线程块可被同时分配到一个可用的 SM 上;

3. 线程块与 SM 的绑定关系具有独占性:一旦分配后,该线程块不可再被分配到其他 SM。

        SM 的基本执行单元是线程束(thead warp),线程束包含 32 个线程,这些线程同时执行相同的指令,但是每个线程都包含自己的指令地址计数器和寄存器状态,也有自己独立的执行路径。

三、线程模型与物理结构

1、逻辑角度分析​​

1. ​​线程组织架构​​

(1)可定义成千上万个线程

(2)线程组织为线程块(Block)和网格(Grid)层级结构

2. ​​资源分配规则​​

(1)网格中所有线程块需分配到 SM(流多处理器)执行

(2)单个线程块内的线程​​固定绑定到同一 SM​​,但一个 SM 可同时托管多个线程块

3. ​​调度单元​​

(1)线程块分配到 SM 后,会按 ​​32 线程为一组​​分割,每组称为一个Wrap/Warp

2、物理角度分析​​

1. 硬件资源限制​​

(1)SM 的寄存器、共享内存等物理资源有限

(2)实际可同时活跃的线程束(Warp)数量受 SM 资源严格约束

2. ​​关键结论​​

(1)逻辑层定义的线程规模 ≠ 物理层实际执行效率

(2)需通过优化线程块大小、资源占用以匹配SM硬件特性

四、线程束

CUDA线程执行模型(SIMT架构)​​

1. ​​核心机制​​

(1)采用​​单指令多线程(SIMT)​​架构管理线程

(2)以​​32个线程为一组​​构成基本执行单元,称为​​线程束(Warp)​​

2. ​​线程束生成规则​​

(1)在同一个线程块(Thread Block)内:

(2)相邻的连续32个线程自动归并为同一线程束

示例:

第0~31号线程 → 第0个线程束

第32~63号线程 → 第1个线程束

3. 硬件执行特性​​

(1)线程束是GPU调度和指令执行的最小单位

(2)同一线程束内所有线程​​同步执行相同指令​​(SIMT核心特征)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

plmm烟酒僧

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值