AI专题:为什么 GB200 NVL72 推理性能相较于 HGX H100 提高 30 倍?

今天分享的是AI专题系列深度研究报告:《AI专题:为什么 GB200 NVL72 推理性能相较于 HGX H100 提高 30 倍?》。

(报告出品方:广发证券

核心观点

GB200 NVL72 系统推理性能大幅提升。英伟达在 2024 GTC 大会发布的 GB200 NVL72系统展现出较强的推理性能;参考公司官网,GPT-MOE-1.8T 模型推理,NVL72的单卡每秒吞吐量可以达到 HGX H100 的 30 倍,我们在此前发布报告《A1 的梨变时刻系列报告 3:为什么 H20 的推理性价比高》中搭建了用于理论推算算力系统推理能力的框架,在本报告中我们将基于本框架进一步分析为何 NVL72 系统的推理能力有如此显著的提升。更高速、支持互联 GPU 数量更多的第五代 NvLink 可以大幅缩减超大模型推理的跨服务器通信时间。NVL72中 72 张 B200 GPU 通过第五代 NvLink互联,双向带宽可达 1800GBIS,对于万亿参数量模型,其参数所需显存空间可达 1000GB 以上(FP8 精度),叠加推理过程中 KVCache 所需显存空间,会超出单台8卡AI 服务器显存容量;因此万亿参数量模型的推理通常要在多台服务器组成的算力系统中进行。多卡1多服务器的算力系统中进行推理会涉及各类并行方式,如张量并行、流水线并行、专家并行、数据并行等;其中张量并行、专家并行会带来较多的卡间通信需求:对于传统的英伟达 DGX 服务器集群,服务器间 GPU 通过 InfiniBand 网络互联,带宽明显低于 NVLink 网络带宽,使得服务器间通信耗时较长、明显影响推理效率,基于NvLink全互联的NVL72 在执行万亿参数量模型推理时卡间通信时间大幅缩减,提高了算力利用率。

Blackwell GPU 引入新的数据精度 FP6/FP4,可提供更快的算力速度。Balckwell GPU 配置的第二代[ransformer 引擎将新的微张量缩放支持和先进的动态范国管理算法与 TensorRT-LLM和NeMo Megatron 框架结合,使 Blackwel 具备在 FP4 精度的 AI推理能力;在全新FP4 精度下,Blackwell GPU 的 Tensor Core 算力是其本身 FP8 精度的算力的2倍,A1性能达到 Hopper的5倍。同时,使用4位精度相较于8位精度,GPU从 HBM 读取模型参数、KV Cache 的速率大幅提升,提高了 Decode 阶段的速率。

其他关键升级点在于显存带宽1容量提升、更适合 MOE 并行的架构升級等。单颗 B200 GPU 配有8颗 HBM3E显存,显存容量达到 192GB,显存带宽达到8TBIS;升级后的显存配置一方面加速 Decode 阶段显存读取效率:另一方面可以支持系统进行更大 Batch Size 的推理,提高算力利用率。Blackwell GPU 引入的第二代Transformer 引擎可以加速混合专家模型的推理,通过使用 MOE 模式有效降低了计算阶段的浮点运算次数,缩短 Preí 阶段的计算时间。

GB200 NVL72 的推理性能优势主要体现在万亿参教量及以上模型。根据我们的推算,在给定万亿参教模型推理场景中,NVL72 系统的推理性能可以达到 DGX H100 系统的 29.5 倍:NVL72 的 NvLink 全互联设计及Blackwel 新架构使得其在万亿参数量及以上级別的 MOE 大模型推理中性能优势显著;但是在运行千亿参数量模型推理时,如 GPT-175B 推理,NVL72系统推理性能仅为 DGX H100 服务器的 7.5倍,且与 DGX B200 股务器的推理性能较为接近。

GB200 NVL72 系统推理性能大幅提升

在2024GTC大会,英伟达发布了全新Blackwell架构GPU和GB200NVL72等新产品其中,基于第五代NvLink实现72张GPU全互联的NVL72系统展现出较强的推理性能:参考发布会内容和公司官网,在GPT-MOE-1.8T模型推理中,NVL72的单卡每秒吞吐量可以达到HGX H100的30倍,推理性能提升明显。我们在此前发布报告《AI的裂变时刻系列报告3:为什么H20的推理性价比高》中搭建了一个用于理论推算算力系统推理能力的框架,在本报告中我们将基于本框架进一步分析为何NVL72系统的推理能力有如此显著的提升。

NvLink大幅缩减推理过程跨服务器通信时间

前沿大语言模型参数量达到万亿级别,带来跨服务器推理需求。根据NVIDIA官网,新一代GPT MOE模型参数量达到1.8万亿级别,是前一代GPT-3模型参数量的10倍以上。以FP8精度为例,仅GPTMOE模型参数所占用显存容量达到1800GB,超出了单台NVIDIADGXH200/DGXB200的显存容量,且考虑到在大语言模型推理过程中KVCache会占据一定容量显存,因此对于万亿参数量模型的推理,跨服务器的并行推理势在必行。

主要的推理并行方式对服务器间通信带宽带来了较高要求。目前主要的推理并行方式有张量并行、流水线并行、专家并行等;其中张量并行推理过程中,道常transformer层内存在All reduce和Al gather通信需求;流水线并行推理过程中,分布在不同服务器的tansformer层间有通信需求;专家并行中专家被分配到不同的GPU上,推理时需要用到all2all通信来互相交换token,单卡推理场景中不需要考虑通信的时间需求;对单台服务器内(8卡GPU内)的推理场景,由于NvLink互联的GPU间通信带宽较高,因此通信时间对整体推理过程效率的影响有限。但是在跨服务器推理场景中,服务器之间的网卡使用InfiniBand网络互联,带宽相较于NvLink网络明显较低,因此跨服务器通信环节容易成为影响推理系统效率的关键因素。

报告来源/公众号:【海选智库】
本文仅供参考,不代表我们的任何建议。海选智库整理分享的资料仅推荐阅读,如需使用请参阅报告原文。

  • 7
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值