一、硬件参数
5090 | 5090D | |
核心 | GB202-300 | GB202-250 |
架构 | Blackwell | Blackwell |
SM | 170 | 170 |
CUDA Cores / SM | 128 | 128 |
CUDA Cores / GPU | 21760 | 21760 |
Tensor Cores / SM | 4 (5th Gen) | 4 (5th Gen) |
Tensor Cores / GPU | 680 (5th Gen) | 680 (5th Gen) |
GPU 加速频率 | 2407 MHz | 2407 MHz |
显存 | 32 GB (GDDR7) | 32 GB (GDDR7) |
显存位宽 | 512 bit | 512 bit |
显存速率 | 28 Gbps | 28 Gbps |
显存带宽 | 1792 GBps | 1792 GBps |
一缓 | 128 KB (per SM) | 128 KB (per SM) |
二缓 | 96 MB | 96 MB |
TGP | 575 W | 575 W |
制程 | TSMC 4N (5nm) | TSMC 4N (5nm) |
注意到,完整 GB202 核心有 12 组 GPC,每组 GPC 包含 8 组 TPC(4090 的 AD102 中是 6 组),单个 TPC 中含有两个 SM 单元,因此完整 GB202 核心共有 192 个 SM 单元,但 GB202-300 和 GB202-250 只开启其中的 170 个。每个 SM 单元中有 128 个 CUDA 计算单元,这 128 个 CUDA 都可以计算 FP32 或 INT32(4090 的 AD102 中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32)。
每个 SM 单元中有 4 个 Tensor Core,因此 GB202-300 和 GB202-250 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4,不支持 FP64。和 AD102 相比,新增支持 FP6 和 FP4,且采用第二代 FP8 Transformer 引擎。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
5090 | 5090D | |
FP32 | 104.8 | 104.8 |
FP16 | 104.8 | 104.8 |
FP64 | 1.64 | 1.64 |
BF16 | 104.8 | 104.8 |
INT32 | 104.8 | 104.8 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
稠密/稀疏
5090 | 5090D* | |
FP4 | 1676 / 3352 | NA / 2375 |
FP8 | 838 / 1676 | NA / NA |
FP16 | 419 / 838 | NA / NA |
BF16 | 209.5 / 419 | NA / NA |
TF32 | 104.8 / 209.5 | NA / NA |
INT8 | 838 / 1676 | NA / NA |
INT4 | 1676 / 3352 | NA / NA |
*5090D 的 Tensor Core 算力有待考证