一、硬件参数
3090 | 3090Ti | |
核心 | GA102-300 | GA102-350 |
架构 | Ampere | Ampere |
SM | 82 | 84 |
CUDA Cores / SM | 128 | 128 |
CUDA Cores / GPU | 10496 | 10752 |
Tensor Cores / SM | 4 (3rd Gen) | 4 (3rd Gen) |
Tensor Cores / GPU | 328 (3rd Gen) | 336 (3rd Gen) |
GPU 加速频率 | 1695 MHz | 1860 MHz |
显存 | 24 GB (GDDR6X) | 24 GB (GDDR6X) |
显存位宽 | 384 bit | 384 bit |
显存速率 | 19.5 Gbps | 21 Gbps |
显存带宽 | 936.2 GBps | 1008 GBps |
一缓 | 128 KB (per SM) | 128 KB (per SM) |
二缓 | 6 MB | 6 MB |
TGP | 350 W | 450 W |
制程 | Samsung 8N (8nm) | Samsung 8N (8nm) |
注意到,完整 GA102 核心有 7 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA102 核心共有 84 个 SM 单元,但 GA102-300 只开启其中的 82 个,GA102-350 开启全部的 84 个 SM 单元。每个 SM 单元中有 128 个 CUDA 计算单元,其中 64 个 CUDA 可以计算 FP32 或 INT32,另外 64 个只能计算 INT32。值得注意的是,从 3090 开始(包括后续的 4090 和 5090),每个 SM 中 只有 2 个 FP64 计算单元,这导致理论双精浮点算力只有单精浮点算力的 1/64 。
每个 SM 单元中有 4 个 Tensor Core,因此 GA102-300 总共含有 328 个 Tensor Core,GA102-350 总共含有 336 个 Tensor Core。支持的数据类型有 FP16、BF16、TF32、INT8、INT4,不支持 FP64。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
3090 | 3090Ti | |
FP32 | 35.58 | 40.00 |
FP16 | 35.58 | 40.00 |
FP64 | 0.556 | 0.625 |
BF16 | 35.58 | 40.00 |
INT32 | 17.79 | 20.00 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
稠密/稀疏
3090 | 3090Ti | |
FP16 | 142 / 284 | 160 / 320 |
BF16 | 71 / 142 | 80 / 160 |
TF32 | 35.6 / 71 | 40 / 80 |
INT8 | 284 / 568 | 320 / 640 |
INT4 | 568 / 1136 | 640 / 1280 |