GPU型号 | Tesla V100 | T4 | A100 | H100 | 昇腾910B | B200 |
发布时间 | 2017 | 2018 | 2020 | 2022 | 2023 | 2024 |
制程工艺 | 12nm | 12nm | 7nm | 4nm (TSMC 4N) | 7nm | 4nm (3D封装) |
计算核心 | 5120 CUDA | 2560 CUDA | 6912 CUDA | 18432 CUDA | 4096 NPU | 24576 CUDA |
FP16算力 (TFLOPS) | 112 | 65 | 312 | 756 | 320 | 1450 |
FP32算力 (TFLOPS) | 14 | 8.1 | 19.5 | 67 | 24 | 89 |
显存类型 | HBM2 | GDDR6 | HBM2e | HBM3 | HBM2e | HBM3e |
显存容量 | 32GB | 16GB | 80GB | 80GB | 64GB | 192GB |
显存带宽 | 900GB/s | 320GB/s | 2TB/s | 3TB/s | 1.5TB/s | 8TB/s |
互连技术 | NVLink 2.0 | PCIe 3.0 | NVLink 3.0 | NVLink 4.0 | HCCS 2.0 | NVLink 5.0 |
互连带宽 | 300GB/s | 16GB/s | 600GB/s | 900GB/s | 600GB/s | 1.8TB/s |
功耗 (TDP) | 300W | 70W | 400W | 700W | 450W | 1200W (液冷) |
软件栈 | CUDA 10+ | CUDA 11+ | CUDA 11+ | CUDA 12+ | CANN 6.0 | CUDA 13+ |
定位及特性 | 首代Tensor Core,首次引入Tensor Core,支持FP16混合精度训练 | 推理专用GPU,低功耗设计,强化INT8推理能力,GDDR6显存 | 通用计算旗舰,支持TF32精度、MIG多实例切分、HBM2e显存 | AI超算专用,FP8精度支持、Transformer引擎、NVLink 4.0 | 国产化AI项目替代方案 | 万亿参数模型专用,第二代Transformer引擎、FP6精度、协同计算架构(CPU+GPU联合优化) |
GPU规格信息对比
于 2025-03-04 18:21:56 首次发布