常见GPU算力（4090&4090D，AD102-300&AD102-250）

Dolphin期材

已于 2025-02-04 09:17:15 修改

阅读量7.2k

点赞数 3

文章标签： gpu算力

于 2025-02-01 19:27:46 首次发布

本文链接：https://blog.csdn.net/qq_45351564/article/details/145413438

版权

一、硬件参数

	4090	4090D
核心	AD102-300	AD102-250
架构	Ada Lovelace	Ada Lovelace
SM	128	114
CUDA Cores / SM	128	128
CUDA Cores / GPU	16384	14592
Tensor Cores / SM	4 (4th Gen)	4 (4th Gen)
Tensor Cores / GPU	512 (4th Gen)	456 (4th Gen)
GPU 加速频率	2520 MHz	2520 MHz
显存	24 GB (GDDR6X)	24 GB (GDDR6X)
显存位宽	384 bit	384 bit
显存速率	21 Gbps	21 Gbps
显存带宽	1008 GBps	1008 GBps
一缓	128 KB (per SM)	128 KB (per SM)
二缓	72 MB	72 MB
TGP	450 W	425 W
制程	TSMC 4N (5nm)	TSMC 4N (5nm)

注意到，完整 AD102 核心有 12 组 GPC，每组 GPC 包含 6 组 TPC，单个 TPC 中含有两个 SM 单元，因此完整 AD102 核心共有 144 个 SM 单元，但 AD102-300 只开启其中的 128 个，AD102-250 只开启其中的 114 个。每个 SM 单元中有 128 个 CUDA 计算单元，其中 64 个 CUDA 可以计算 FP32 或 INT32，另外 64 个只能计算 INT32。

每个 SM 单元中有 4 个 Tensor Core，因此 AD102-300 总共含有 512 个 Tensor Core，AD102-250 总共含有 456 个 Tensor Core。支持的数据类型有 FP8、FP16、BF16、TF32、INT8、INT4，不支持 FP64。对于 FP16 数据，每个 Tensor Core 每周期可以完成 64 次 FMA（乘加）操作，因 FMA 算作两次浮点运算，所以相当于 128 个 FP16 FLOPs；对于 INT8 数据，每个 Tensor Core 每周期能完成 128 次运算；对于 INT4 数据，每周期则能完成 256 次运算。启用稀疏计算（2:4 模式）加速后，在神经网络权重中，强制每 4 个连续元素中至少 2 个为零，Tensor Core 硬件自动跳过零值计算，有效吞吐量翻倍。

二、算力

1、CUDA Core 算力

浮点：TFLOPS

整型：TIOPS

	4090	4090D
FP32	82.6	73.5
FP16	82.6	73.5
FP64	1.29	1.149
BF16	82.6	73.5
INT32	41.3	36.8

2、Tensor Core 算力

浮点：TFLOPS

整型：TIOPS

稠密/稀疏

	4090	4090D
FP8	660.6 / 1321.2	588.4 / 1176.8
FP16	330.3 / 660.6	294.2 / 588.4
BF16	165.2 / 330.4	147.1 / 294.2
TF32	82.6 / 165.2	73.5 / 147.1
INT8	660.6 / 1321.2	588.4 / 1176.8
INT4	1321.2 / 2642.4	1176.8 / 2353.6