a100高性能服务器,滴滴云 A100 GPU 裸金属服务器(BMS)最佳实践

滴滴云发布了基于NVIDIA A100 GPU的高性能服务器产品,包括裸金属服务器BMS,提供深度学习、视频处理等场景的加速。A100 GPU基于Ampere架构,具备多实例GPU技术,提升服务器利用率,并在计算性能、数据类型支持等方面大幅超越前代产品。此外,文章还介绍了A100的软件环境配置、性能评测和MIG功能,展示其在AI训练和推理中的优秀表现。
摘要由CSDN通过智能技术生成

2020 年 5 月 14日,NVIDIA 创始人兼首席执行官黄仁勋在 NVIDIA GTC 2020 主题演讲中介绍了基于最新 Ampere 架构的 NVIDIA A100 GPU。NVIDIA A100 Tensor Core GPU 基于最新的 Ampere 架构,相比上一代 NVIDIA Tesla V100 GPU 增加了了许多新特性,在 HPC,AI 和数据分析领域都有更好的表现。

北京时间 9 月 1 日,滴滴云发布基于 NVIDIA Tesla A100 GPU 的云服务器产品,据悉滴滴云是该型GPU云服务器产品的国内首发云厂商。

滴滴云基于 A100 GPU 的产品包括裸金属服务器(BMS)、透传性 GPU 云服务器和 vGPU 云服务器产品,可用于深度学习训练/推理、视频处理、科学计算、图形图像处理等场景。目前基于 A100 GPU 的裸金属服务器产品开放测试,欢迎企业用户垂询。

A100 搭载了革命性的多实例 GPU(Multi-instance GPU 或 MIG)虚拟化与 GPU 切割能力,对云服务供应商(CSPs)更加友好。当配置为 MIG 运行状态时,A100 可以通过分出最多 7 个核心来帮助供应商提高 GPU 服务器的利用率,无需额外投入。A100 稳定的故障分离也能够让供应商安全的分割GPU。

A100 带有性能强劲的第三代 Tensor Core,支持更为丰富的 DL 和 HPC 数据类型,同时具有比 V100 更高的计算吞吐。 A100 新的稀疏(Sparsity)特性能够进一步让计算吞吐翻倍。新的 TensorFloat-32 (TF32) 核心运算单元让 A100 在 DL 框架和 HPC 中轻松加速以 FP32 作为输入/输出数据的运算,比 V100 FP32 FMA 操作快10倍,稀疏优化(sparse)下可以达到 20 倍。在 FP16/FP32 的混合精度下也能达到 V100 的 2.5 倍,稀疏优化后达 5 倍。新的 Bfloat16(BF16)/FP32 混合精度 Tensor Core 运算单元和 FP16/FP32 混合精度以相同的频率运行。Tensor Core 对 INT8,INT4 和 INT1 的加速为 DL 推理提供了全面支持,A100 sparse INT8 比 V100 INT8 快 20 倍。在 HPC 中,A100 Tensor 核心的 IEEE 兼容 FP64 处理让它的表现是 V100的 2.5 倍。

下图为 A100 GPU 支持的各种浮点数据类型位宽表示。

719556fdf947357365b13e7ff8a4a37a.png

A100 硬件参数与前代 GPU 对比GPU 型号GV100TU102TU102GA100

GPU 工艺TSMC 12nmTSMC 12nmTSMC 12nmTSMC 7nm

CUDA 架构Volta(SM_70)Turing (SM_75)Turing (SM_75)Ampere(SM_80)

SM 数目806872108

SP 数目51204352 (=68 * 64)4608 (=72 * 64)6912 (=108 * 64)

GPU 时钟频率1.53 GHz1.545 GHz*1.77 GHz1.41 GHz

ROPs1288896160

TMUs320272288432

Tensor Cores640544576432

RT CoresN/A6872N/A

显存容量32 GB HBM211 GB GDDR624 GB GDDR640 GB HBM2E

显存位宽4096 bits352 bits384 bits5120 bits

显存频率0.876 GHz(x2)1.75 GHz(x8)1.75 GHz(x8)1.215 GHz(x2)

显存带宽897 GB/s616 GB/s**672 GB/s1555 GB/s

功耗250 W250 W260 W400 W

A100 与前代 GPU CUDA Core/Tensor Core 计算能力对比(单位:每时钟周期每 SM 乘累加次数):

4c323b0961a2ea79470a460dab1ba94c.png

根据上述表格中的数字可以计算出 A100 峰值计算能力:

计算类型峰值吞吐(TFLOPS/TOPS)FP64, CUDA Core9.746(= 108 x 32 x 1410MHz x 2)

FP64, Tensor Core19.49(= 108 x 64 x 1410MHz x 2)

FP32, CUDA Core19.49(= 108 x 64 x 1410MHz x 2)

TF32, Tensor Core155.9(= 108 x 512 x 1410MHz x 2)

TF32, Tensor Core, Sparse311.87(= 108 x 1024 x 1410MHz x 2)

FP16, CUDA Core77.96(= 108 x 256 x 1410MHz x 2)

FP16, Tensor Core311.87(= 108 x 1024 x 1410MHz x 2)

FP16, Tensor Core, Sparse623.74(= 108 x 2048 x 1410MHz x 2)

INT8, CUDA Core77.96(= 108 x 256 x 1410MHz x 2)

INT8, Tensor Core623.74(= 108 x 2048 x 1410MHz x 2)

INT8, Tensor Core, Spa

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值