a100高性能服务器,滴滴云 A100 GPU 裸金属服务器（BMS）最佳实践

最新推荐文章于 2024-05-31 16:43:37 发布

weixin_39982580

最新推荐文章于 2024-05-31 16:43:37 发布

阅读量1.7k

点赞数

文章标签： a100高性能服务器

滴滴云发布了基于NVIDIA A100 GPU的高性能服务器产品，包括裸金属服务器BMS，提供深度学习、视频处理等场景的加速。A100 GPU基于Ampere架构，具备多实例GPU技术，提升服务器利用率，并在计算性能、数据类型支持等方面大幅超越前代产品。此外，文章还介绍了A100的软件环境配置、性能评测和MIG功能，展示其在AI训练和推理中的优秀表现。

摘要由CSDN通过智能技术生成

2020 年 5 月 14日，NVIDIA 创始人兼首席执行官黄仁勋在 NVIDIA GTC 2020 主题演讲中介绍了基于最新 Ampere 架构的 NVIDIA A100 GPU。NVIDIA A100 Tensor Core GPU 基于最新的 Ampere 架构，相比上一代 NVIDIA Tesla V100 GPU 增加了了许多新特性，在 HPC，AI 和数据分析领域都有更好的表现。

北京时间 9 月 1 日，滴滴云发布基于 NVIDIA Tesla A100 GPU 的云服务器产品，据悉滴滴云是该型GPU云服务器产品的国内首发云厂商。

滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品，可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试，欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力，对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时，A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率，无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core，支持更为丰富的 DL 和 HPC 数据类型，同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算，比 V100 FP32 FMA 操作快10倍，稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍，稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8，INT4 和 INT1 的加速为 DL 推理提供了全面支持，A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中，A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为 A100 GPU 支持的各种浮点数据类型位宽表示。

A100 硬件参数与前代 GPU 对比GPU 型号GV100TU102TU102GA100

GPU 工艺TSMC 12nmTSMC 12nmTSMC 12nmTSMC 7nm

CUDA 架构Volta(SM_70)Turing (SM_75)Turing (SM_75)Ampere(SM_80)

SM 数目806872108

SP 数目51204352 (=68 * 64)4608 (=72 * 64)6912 (=108 * 64)

GPU 时钟频率1.53 GHz1.545 GHz*1.77 GHz1.41 GHz

ROPs1288896160

TMUs320272288432

Tensor Cores640544576432

RT CoresN/A6872N/A

显存容量32 GB HBM211 GB GDDR624 GB GDDR640 GB HBM2E

显存位宽4096 bits352 bits384 bits5120 bits

显存频率0.876 GHz(x2)1.75 GHz(x8)1.75 GHz(x8)1.215 GHz(x2)

显存带宽897 GB/s616 GB/s**672 GB/s1555 GB/s

功耗250 W250 W260 W400 W

A100 与前代 GPU CUDA Core/Tensor Core 计算能力对比(单位：每时钟周期每 SM 乘累加次数)：

根据上述表格中的数字可以计算出 A100 峰值计算能力：

计算类型峰值吞吐(TFLOPS/TOPS)FP64, CUDA Core9.746(= 108 x 32 x 1410MHz x 2)

FP64, Tensor Core19.49(= 108 x 64 x 1410MHz x 2)

FP32, CUDA Core19.49(= 108 x 64 x 1410MHz x 2)

TF32, Tensor Core155.9(= 108 x 512 x 1410MHz x 2)

TF32, Tensor Core, Sparse311.87(= 108 x 1024 x 1410MHz x 2)

FP16, CUDA Core77.96(= 108 x 256 x 1410MHz x 2)

FP16, Tensor Core311.87(= 108 x 1024 x 1410MHz x 2)

FP16, Tensor Core, Sparse623.74(= 108 x 2048 x 1410MHz x 2)

INT8, CUDA Core77.96(= 108 x 256 x 1410MHz x 2)

INT8, Tensor Core623.74(= 108 x 2048 x 1410MHz x 2)

INT8, Tensor Core, Spa

最低0.47元/天解锁文章

weixin_39982580

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
a100高性能服务器,滴滴云 A100 GPU 裸金属服务器（BMS）最佳实践

2020 年 5 月 14日，NVIDIA 创始人兼首席执行官黄仁勋在 NVIDIA GTC 2020 主题演讲中介绍了基于最新 Ampere 架构的 NVIDIA A100 GPU。NVIDIA A100 Tensor Core GPU 基于最新的 Ampere 架构，相比上一代 NVIDIA Tesla V100 GPU 增加了了许多新特性，在 HPC，AI 和数据分析领域都有更好的表现。北京...
复制链接

扫一扫