一、硬件参数
V100 SXM2 | V100 PCIe | V100S PCIe | |
核心 | GV100 | GV100 | GV100 |
架构 | Volta | Volta | Volta |
SM | 80 | 80 | 80 |
CUDA Cores / SM | 64 | 64 | 64 |
CUDA Cores / GPU | 5120 | 5120 | 5120 |
FP32 Cores / SM | 64 | 64 | 64 |
FP32 Cores / GPU | 5120 | 5120 | 5120 |
FP64 Cores / SM | 32 | 32 | 32 |
FP64 Cores / GPU | 2560 | 2560 | 2560 |
INT32 Cores / SM | 64 | 64 | 64 |
INT32 Cores / GPU | 5120 | 5120 | 5120 |
Tensor Core | 1st | 1st | 1st |
Tensor Cores / SM | 8 | 8 | 8 |
Tensor Cores / GPU | 640 | 640 | 640 |
GPU 加速频率 (MHz) | 1530 | 1380 | 1597 |
显存 | 16 / 32 GB HBM2 | 16 / 32 GB HBM2 | 32 GB HBM2 |
显存位宽 (bit) | 4096 | 4096 | 4096 |
显存带宽 (GBps) | 897 | 897 | 1133 |
一缓 (KB per SM) | 128 | 128 | 128 |
二缓 (MB) | 6 | 6 | 6 |
接口 | SXM2 | PCIe 3.0x16 | PCIe 3.0x16 |
TDP (W) | 300 | 250 | 250 |
制程 | TSMC 12nm FFN | TSMC 12nm FFN | TSMC 12nm FFN |
注意到,完整 GV100 核心有 6 组 GPC,每组 GPC 包含 7 组 TPC,单个 TPC 中含有两个 SM 单元,因此完整 GV100 核心共有 84 个 SM 单元,但 V100 的 GV100 核心只开启其中的 80 个。每个 SM 单元中有 64 个 CUDA 计算单元。每个 SM 单元中有 64 个 FP32 计算单元、64 个 INT32 计算单元和 32 个 FP64 计算单元。
每个 SM 单元中有 8 个 Tensor Core,因此 V100 的 GV100 总共含有 640 个 Tensor Core。支持的数据类型只有 FP16。
二、算力
1、CUDA Core 算力
浮点:TFLOPS
整型:TIOPS
V100 SXM2 | V100 PCIe | V100S PCIe | |
FP32 | 15.67 | 14.13 | 16.35 |
FP16 | 31.33 | 28.26 | 32.71 |
FP64 | 7.834 | 7.066 | 8.177 |
INT32 | 15.67 | 14.13 | 16.35 |
2、Tensor Core 算力
浮点:TFLOPS
V100 SXM2 | V100 PCIe | V100S PCIe | |
FP16 | 125 | 112 | 130 |