一、硬件参数
核心 | TU102-300A |
架构 | Turing |
SM | 68 |
CUDA Cores / SM | 64 |
CUDA Cores / GPU | 4352 |
Tensor Cores / SM | 8 (2nd Gen) |
Tensor Cores / GPU | 544 (2nd Gen) |
GPU 加速频率 | 1545 MHz |
显存 | 11 / 22 GB (GDDR6)* |
显存位宽 | 352 bit |
显存速率 | 14 Gbps |
显存带宽 | 616 GBps |
一缓 | 64 KB (per SM) |
二缓 | 6 MB |
TGP | 250 W |
制程 | TSMC 12nm FFN |
* 22 GB 是常见的手动扩显存的魔改卡
注意到,完整 TU102 核心共有 6 组 GPC,每组 GPC 包含 6 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 TU102 核心共有 72 个 SM 单元,但 TU102-300A 只开启其中的 68 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 2 个 FP64 计算单元。
每个 SM 单元中有 8 个 Tensor Core,因此 TU102-300A 总共含有 544 个 Tensor Core。支持的数据类型有 FP16、INT8、INT4,不支持 FP64、BF16、TF32。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
FP32 | 13.45 |
FP16 | 26.9 |
FP64 | 0.4202 |
INT32 | 13.45 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
FP16 | 107.6 |
INT8 | 215.2 |
INT4 | 430.3 |