常见GPU算力（5090&5090D，GB202-300&GB202-250）

Dolphin期材

已于 2025-02-04 09:46:32 修改

阅读量2.8k

点赞数 5

文章标签： gpu算力

于 2025-02-02 21:30:01 首次发布

本文链接：https://blog.csdn.net/qq_45351564/article/details/145422580

版权

一、硬件参数

	5090	5090D
核心	GB202-300	GB202-250
架构	Blackwell	Blackwell
SM	170	170
CUDA Cores / SM	128	128
CUDA Cores / GPU	21760	21760
Tensor Cores / SM	4 (5th Gen)	4 (5th Gen)
Tensor Cores / GPU	680 (5th Gen)	680 (5th Gen)
GPU 加速频率	2407 MHz	2407 MHz
显存	32 GB (GDDR7)	32 GB (GDDR7)
显存位宽	512 bit	512 bit
显存速率	28 Gbps	28 Gbps
显存带宽	1792 GBps	1792 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	96 MB	96 MB
TGP	575 W	575 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

注意到，完整 GB202 核心有 12 组 GPC，每组 GPC 包含 8 组 TPC（4090 的 AD102 中是 6 组），单个 TPC 中含有两个 SM 单元，因此完整 GB202 核心共有 192 个 SM 单元，但 GB202-300 和 GB202-250 只开启其中的 170 个。每个 SM 单元中有 128 个 CUDA 计算单元，这 128 个 CUDA 都可以计算 FP32 或 INT32（4090 的 AD102 中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32）。

每个 SM 单元中有 4 个 Tensor Core，因此 GB202-300 和 GB202-250 总共含有 680 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4、FP6、FP4，不支持 FP64。和 AD102 相比，新增支持 FP6 和 FP4，且采用第二代 FP8 Transformer 引擎。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS

	5090	5090D
FP32	104.8	104.8
FP16	104.8	104.8
FP64	1.64	1.64
BF16	104.8	104.8
INT32	104.8	104.8

2、Tensor Core 算力

浮点：TFLOPS

整型：TIOPS

稠密/稀疏

	5090	5090D*
FP4	1676 / 3352	NA / 2375
FP8	838 / 1676	NA / NA
FP16	419 / 838	NA / NA
BF16	209.5 / 419	NA / NA
TF32	104.8 / 209.5	NA / NA
INT8	838 / 1676	NA / NA
INT4	1676 / 3352	NA / NA

*5090D 的 Tensor Core 算力有待考证