一、硬件参数
A100 40GB PCIe | A100 80GB PCIe | A100 40GB SXM | A100 80GB SXM | |
核心 | GA100 | GA100 | GA100 | GA100 |
架构 | Ampere | Ampere | Ampere | Ampere |
SM | 108 | 108 | 108 | 108 |
CUDA Cores / SM | 64 | 64 | 64 | 64 |
CUDA Cores / GPU | 6912 | 6912 | 6912 | 6912 |
FP32 Cores / SM | 64 | 64 | 64 | 64 |
FP32 Cores / GPU | 6912 | 6912 | 6912 | 6912 |
FP64 Cores / SM | 32 | 32 | 32 | 32 |
FP64 Cores / GPU | 3456 | 3456 | 3456 | 3456 |
INT32 Cores / SM | 64 | 64 | 64 | 64 |
INT32 Cores / GPU | 6912 | 6912 | 6912 | 6912 |
Tensor Core | 3rd | 3rd | 3rd | 3rd |
Tensor Cores / SM | 4 | 4 | 4 | 4 |
Tensor Cores / GPU | 432 | 432 | 432 | 432 |
GPU 加速频率 (MHz) | 1410 | 1410 | 1410 | 1410 |
显存 | 40 GB HBM2 | 80 GB HBM2e | 40 GB HBM2 | 80 GB HBM2e |
显存位宽 (bit) | 5120 | 5120 | 5120 | 5120 |
显存带宽 (GBps) | 1555 | 1935 | 1555 | 2039 |
一缓 (KB per SM) | 192 | 192 | 192 | 192 |
二缓 (MB) | 40 | 40 | 40 | 40 |
接口 | PCIe 4.0x16 | PCIe 4.0x16 | SXM4 | SXM4 |
TDP (W) | 250 | 300 | 400 | 400 |
制程 | TSMC N7 (7nm) | TSMC N7 (7nm) | TSMC N7 (7nm) | TSMC N7 (7nm) |
注意到,完整 GA100 核心有 8 组 GPC,每组 GPC 包含 8 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GA100 核心共有 128 个 SM 单元,但 A100 的 GA100 核心只开启其中的 108 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。
每个 SM 单元中有 4 个 Tensor Core,因此 GA100 总共含有 432 个 Tensor Core。支持的数据类型有FP16、BF16、TF32、FP32、FP64、INT8、INT4、Binary。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
FP32 | 19.5 |
FP16 | 78 |
FP64 | 9.7 |
BF16 | 39 |
INT32 | 19.5 |
2、Tensor Core 算力
浮点:TFLOPS
整型:TIOPS
稠密/稀疏
FP16 | 312 / 624 |
BF16 | 312 / 624 |
TF32 | 156 / 312 |
FP32 | 19.5 |
FP64 | 19.5 |
INT8 | 624 / 1248 |
INT4 | 1248 / 2496 |
Binary | 4992 |