Nvidia Ampere 架构深度解析

最新推荐文章于 2025-03-03 20:44:50 发布

「已注销」

最新推荐文章于 2025-03-03 20:44:50 发布

阅读量2.6k

点赞数 1

文章标签：大数据 hadoop 人工智能深度学习 java

本文链接：https://blog.csdn.net/didi_cloud/article/details/112006188

版权

NVIDIA A100 GPU基于Ampere架构，提供显著的性能提升，如增强的Tensor Core支持TF32和FP64，提供更高的计算吞吐量。新特性包括多实例GPU（MIG）虚拟化，可提高GPU利用率和安全性。A100的第三代NVLink和更大的L2缓存增强了多GPU扩展性和I/O性能。此外，A100支持结构化稀疏性，使计算吞吐量翻倍。此GPU适用于HPC、AI和数据分析等领域。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2020 年 5 月 14日，NVIDIA 创始人兼首席执行官黄仁勋在 NVIDIA GTC 2020 主题演讲中介绍了基于最新 Ampere 架构的 NVIDIA A100 GPU。这篇文章将会带你深入了解这颗 GPU 并介绍 Ampere 结构的一些关键特性。

本文翻译自

https://devblogs.nvidia.com/nvidia-ampere-architecture-in-depth/

Part1.

NVIDIA A100 Tensor Core GPU介绍

NVIDIA A100 Tensor Core GPU 基于最新的 Ampere 架构，相比上一代 NVIDIA Tesla V100 GPU 增加了了许多新特性，在 HPC，AI 和数据分析领域都有更好的表现。

A100 为 GPU 计算和深度学习应用提供了超强扩展性，可以运行在单卡或多卡 GPU 工作站、服务器、集群、云数据中心、边缘计算系统以及超算中心。A100 GPU 可以构建灵活，弹性且高性能的数据中心。

A100 搭载了革命性的多实例 GPU（Multi-instance GPU 或 MIG）虚拟化与 GPU 切割能力，对云服务供应商（CSPs）更加友好。当配置为 MIG 运行状态时，A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率，无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core，支持更为丰富的 DL 和 HPC 数据类型，同时具有比 V100 更高的计算吞吐。A100 新的稀疏（Sparsity）特性能够进一步让计算吞吐翻倍。

新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算，比 V100 FP32 FMA 操作快10倍，稀疏优化（sparse）下可以达到20倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍，稀疏优化后达 5 倍。

新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8，INT4 和 INT1 的加速为 DL 推理提供了全面支持，A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中，A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

A100 不仅仅可以胜任复杂的大型工作，它同样可以有效率的加速许多小型工作。A100 能够让搭建的数据中心根据不同的工作需求做调整，提供更细致的工作配置，更高的 GPU 利用率以及更好的 TCO。

如图 2 所示，相对于 V100，A100 在训练和推理工作上提供了额外的加速。图 3 同样显示了 A100 在不同 HPC 应用上的表现有了显著的提升。