目录
一、NVIDIA GPU架构
1、Blackwell 架构
Blackwell 架构是 NVIDIA GPU 最新一代架构,2024 年 3 月发布。首次全面支持DisplayPort 2.1 UHBR20(80Gbps),突破DisplayPort 1.4a的限制。它们还将支持PCIe 5.0,成为首批实现这一转变的消费级GPU,不过我们还需观察这一支持是否覆盖所有Blackwell GPU,还是仅适用于RTX 5090。视频编码和解码功能也得到了增强,现在支持4:2:2视频流。
2、Hopper 架构
Hopper 架构是 NVIDIA GPU 的第九代架构,2022 年发布。相较于Ampere,Hopper 架构支持第四代Tensor Core,且采用新型流式处理器,每个 SM 能力更强。Hopper 架构在计算能力、深度学习加速和图形功能方面带来新的创新和改进。代表产品是H100、H800。
3、Ampere 架构
Ampere 架构是 NVIDIA GPU 的第八代架构,2020 年发布。Ampere 架构在计算能力、能效和深度学习性能方面都有重大提升。Ampere 架构的 GPU 采用了多个流多处理器(SM)和更大的总线宽度,提供了更多的 CUDA Core 和更高的频率。它还引入了第三代Tensor Core,提供更强大的深度学习计算性能。Ampere 架构的 GPU 还具有更高的内存容量和带宽,适用于大规模的数据处理和机器学习任务。代表产品是A100、A800、A30系列。
4、Turing 架构
Turing 架构是 NVIDIA GPU 的第七代架构,发布于 2018 年。Turing 架构引入了实时光线追踪(RTX)和深度学习超采样(DLSS)等重要功能。代表产品是T4、2080TI、RTX5000。
5、Volta 架构
Volta 架构是 NVIDIA GPU 的第六代架构,发布于 2017 年。Volta 架构专注于深度学习和人工智能应用,并引入了 Tensor Core。代表产品:V100、TiTan。
二、A100、H100、A800、H800、H20差异对比
GPU型号 | 架构 | CUDA核心数 | Tensor核心数 | 显存(HBM) | 带宽 | NVLink | 说明 | 主要用途 | 详细信息 |
A100 | Ampere | 6912 | 432 | 80G HBM2e | 2.04 TB/s | 支持 | 新一代专业计算卡皇,除了贵没缺点。显存大,非常适合做半精计算,因为有 NVLink 600 GB/s,多卡并行加速比非常高。需要使用 cuda11.x | AI训练、推理、HPC | |
H100 | Hopper | 14592 | 456 | 80G HBM2e | 2.04 TB/s | 支持 | 算力、带宽、显存都很好,就是目前在国内不容易买到而且贵 | AI训练、HPC、Transformer Engine | |
A800 | Ampere | 6912 | 432 | 80G HBM2e | 1.94 TB/s | 400 GB/s | 与 A100 相比,主要差别在其 NVLink 速度只有 400 GB/s | 中国市场AI计算 | |
H800 | Hopper | 14592 | 456 | 80G HBM2e | 2.04 TB/s | 受限 | 与 A100 性能好一些 | 中国市场大规模AI计算 | |
H20 | Hopper | 未公布 | 未公布 | 预计 96G | 受限 4 TB/s | 预计 900GB/s | 高缓存、高带宽,但是算力性能比非特供版低 | 中国市场AI训练和推理 |
1. A100:数据中心AI计算的奠基石
A100是英伟达2020年发布的旗舰级数据中心GPU,基于Ampere架构,主要特性包括:
- 架构:Ampere
- CUDA核心数:6912
- Tensor核心:432
- 显存:80GB HBM2e
- 带宽:2.04 TB/s
- NVLink支持:可连接多个GPU以扩展算力
- 应用场景:深度学习训练、推理、科学计算、大规模数据分析
A100可广泛应用于高性能计算(HPC)和深度学习任务,适用于需要大量计算资源的企业级用户。
2. H100:性能提升的算力王者
H100是A100的升级版,采用更先进的Hopper架构,相比A100提升了数倍的计算性能,主要特性包括:
- 架构:Hopper
- CUDA核心数:14592
- Tensor核心:456
- 显存:80GB HBM2e(带宽高达3.35TB/s)
- NVLink支持:支持高带宽互联
- Transformer Engine:专门优化AI大模型训练,如GPT-4
- 应用场景:大规模AI训练、HPC、企业级AI推理
H100特别适用于大型AI模型训练,比如Llama、GPT、Stable Diffusion等,可以大幅提升训练效率。H100 特别优化了 Transformer Engine,在 FP8/FP16 下可大幅提升 AI 训练和推理性能,适用于 LLM(大语言模型)如 GPT-4。
3. A800 & H800:中国市场专供版
A800和H800是英伟达专为中国市场推出的受限版GPU,以符合美国的出口管制要求:
- A800:基于A100,限制了NVLink互联带宽,适合AI推理和训练
- H800:基于H100,限制了带宽,但仍然保留了较高的计算能力,适用于大型AI训练
这些GPU主要面向中国客户,如阿里云、腾讯云、百度云等云计算厂商,性能稍逊于A100和H100,但仍然具备极高的计算能力。
4. H20:新一代受限算力GPU
H20是英伟达为中国市场设计的新一代受限版H100,预计将取代H800:
- 架构:Hopper
- 显存:未知(预计96GB+)
- 带宽:受限
- 计算性能:介于A800和H800之间
H20仍然具备强大的算力,适用于AI训练和推理,但具体性能指标需等待正式发布后确认。