Nvidia GPU系列产品分析

概述

Nvidia的GPU发展了30多年,已经逐渐形成了消费级、专业级、AI加速等不同计算任务的GPU系列。

纵观Nvidia的GPU发展历程,其不断迭代的GPU架构以及性能强劲的GPU互联技术成了Nvidia始终站在市场顶峰的决胜法宝。

当前Nvidia企业级GPU的互联架构

Nvidia企业级GPU的互联经过20年的发展,产品不断在迭代,性能越来越高,但互联架构基本万变不离其综。采用PCIe+NVLink的协议组合,两类Switch的连接拓扑(SuperChip系列除外)。
在这里插入图片描述
与传统的互联相比:

在这里插入图片描述

Nvidia GPU的两种接口:SXM和PCIe

Nvidia发布的AI计算平台(机架式服务器)有两种,一种是SXM版本(Socketed Multi-Chip Module,即链路层为NVLink版本),另一种是PCIe版本。
SXM是英伟达专为实现GPU间超高速互连而研发的一种高带宽插座式解决方案。这一独特的设计使得GPU能够无缝对接于英伟达自家的DGX和HGX系统。这种设计为每一代Nvidia GPU配备了特定的SXM插座3,确保GPU与系统间实现最该效率的连接。
pcie版本则面向传统的CPU服务器架构,GPU通过pcie switch与CPU相连,每两个GPU则通过NVLink Bridge连接,与SXM相比GPU间的通信效率较低。

DGX、HGX和EGX

DGX、HGX和EGX是Nvidia退出的三种服务器参考架构,后面常跟具体的GPU型号,比如DGX B200等等。

DGX可视为出厂预装且高度可扩展的完整服务器解决方案,包含了Nvidia的GPU、CPU、DPU产品。
多台NVIDIA 显卡可通过NVSwitch系统轻松组合,形成包含32个乃至64个节点的超级集群SuperPod,足以应对超大规模模型训练的严苛需求。
DGX分为BasePOD9和SuperPOD10两个系列,BasePOD是Nvidia自定义的计算系统,通过多个NVswitch将GPU连接起来,通信效率更高,而SuperPOD则类似数据中心场景,通常常用机架式的服务器连接。
如图为DGX V100平台

HGX则属于原始设备制造商(OEM)定制整机方案,包含了CPU和GPU。

EGX则用在边缘端,包含了CPU和GPU,但相比HGX规模更小。

每代GPU产品的芯片架构

Nvidia的GPU从2006年到2024年开始依次Tesla → Fermi → Kepler → Maxwell → Pascal → Volta → Turing → Ampere → Hopper → Blackwell的架构演进。
截止Ampere架构的详细说明请参考此文8
在这里插入图片描述

消费级GPU

主要包括GeForce系列(G系列),面向桌面端的游戏玩家或普通用户

专用型GPU

主要包括Quadro系列(P系列),面向计算机辅助设计、动画制作、虚拟显示领域

企业级GPU

包括Tesla系列等,主要面向高性能计算、机器学习等任务。

B100

2024年GTC上发布,具体参数如下,用在HGX B100计算系统中
在这里插入图片描述

B200

2024年GTC上发布,该芯片采用Blackwell架构,具有 2080 亿个晶体管,采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片,通过 10 TB/s 的chiplet互联技术 NV-HBI连接成一块统一的 GPU。
B200可以支持多达 10 万亿个参数的 AI 模型,而 OpenAI 的 GPT-3 由 1750 亿个参数组成。它还通过单个 GPU 提供 20 petaflops 的 AI 性能——单个 H100 最多可提供 4 petaflops 的 AI 计算。

  • 2x GPU die + 8x HBM3e
  • 通过HBM 单芯片内存可达192GB
  • D2D接口:NV-HBI(高带宽接口) 带宽:10 TB/s
  • 功耗:1000W
  • NVlink5 带宽:1800 GB/s
  • PCIe 6.0 带宽:256 GB/s

在这里插入图片描述

H100

H100芯片的信息可从架构白皮书查询。
NVIDIA官网:H100
NVIDIA官网:hopper-architecture
NVIDIA官网:H100 Tensor Core GPU架构白皮书
NVIDIA官网:H100 Tensor Core GPU数据手册

超级芯片(Superchip)

超级芯片是由Nvidia的CPU和GPU通过NVLink协议在板级上封装起来的集成系统。Grace是Nvidia基于Arm架构研发的CPU。

Grace Hopper(GH100)

2022年春季,Nvidia发布了Grace Hopper GPU平台。Grace Hopper平台实际上是由Grace CPU和Hopper GPU通过NVLink C2C技术连接的超级芯片(Superchip)4
在这里插入图片描述

Grace blackwell(GB200)

2024年3月GTC 2024会议上,Nvidia发布了Grace blackwell GPU平台,该平台是由Grace CPU和Blackwell架构的GPU通过NVlink-C2C构成的superchip。相比于前一代的一对一连接,GB改成了一对二连接。

  • chip-to-chip接口:NVlink C2C技术 900GB/s
  • 功率:2700W
    在这里插入图片描述

AI计算平台

同样是CPU+GPU的加速平台,与GH和GB等系列不同的,BasePOD的CPU通常是Intel的志强系列。

DGX A100 BasePOD

在这里插入图片描述

DGX H100 BasePOD

DGX H100是用于训练、推理和分析的高性能AI计算系统。组件包括BlueField-3 DPU、DNR InfiniBand、第二代MIG技术以及H100 GPU。

  • 8个H100 GPU
  • 2个56 core的intel Xeon处理器
  • 16 petaFLOPS@FP16
    在这里插入图片描述
    在这里插入图片描述

DGX B200 BasePOD

2024年3月,Nvidia发布了其最新的用于AI运算的统一平台 DGXTM B200,相比上一代提升了3倍的训练性能和15倍的推理性能,可以处理不同的工作负载,包括大语言模型、推荐系统(recommender system)和对话机器人(chatbots)等。

  • 8个 B200 张量核GPU,每个GPU采用Blackwell GPU架构
  • 1440 GB GPU内存
  • 两个 Intel® Xeon® Platinum 8570 CPU
  • 系统内存 4TB
  • 72 petaFLOPS training and 144 petaFLOPS inference
  • 第5代NVlink
  • 功耗~14.3kW max
  • 10个rack单元
    在这里插入图片描述

Hopper DGX SuperPOD

Hopper架构的DGX SuperPOD推测是由basePOD组成的集群系统(官网并没有明说,根据数据手册的图片推测)。

  • 第4代NVLink技术 + 第3代NVSwitch
  • 最多连接256个H100

在这里插入图片描述

Blackwell DGX SuperPOD

GTC2024公布的基于Blackwell架构的数据中心。与上一代Hopper架构的SuperPOD不同,Blackwell架构的SuperPOD的基本节点不再是BasePOD,而是1U大小的Blackwell计算节点,该节点由Grace Blackwell、NVswitch、DPU等设备组成,集成度相比BasePOD更高。

下图是GTC2024黄仁勋主题演讲的截图,由于产品尚未完全发布,不排除也会由DGX B200 BasePOD系统组成的SuperPOD。

  • 第5代NVLink技术 + 第5代NVSwitch
  • 最多连接576个GB

SuperPOD集群如图所示:
在这里插入图片描述

多台NVL72构成超算集群

2块GB200构成一个blackwell计算节点。
在这里插入图片描述

18个Blackwell计算节点构成一个Rack,即一个GB200计算节点。如图所示,图中显示27个Blackwell节点,猜测有可能分水冷和风冷,水冷节点数可能多一点。
在这里插入图片描述
一个rack再包含光量子infiniband路由器可构成GB200 NVL72平台。
在这里插入图片描述

在这里插入图片描述
通过Quantum-X800 infiniband或者spectrum-X800网络交换机连接racks, 8台NVL72构成rack集群
在这里插入图片描述

单计算节点组成

infiniband 网卡

每个计算节点配备了connectx-800G infiniband supernic,工业级的先进的GPU RDMA,且可编程配置
在这里插入图片描述

Bluefield-3 DPU

强大的基础设施处理器,能够实现网络内计算
在这里插入图片描述

NVLink switch

用于连接一个GB计算节点上的4个GPU,构成网络。
在这里插入图片描述

互联技术

NVLink和NVSwitch

NVLink是NVIDIA推出的一种高速的GPU到GPU的互联接口协议;
NVSwitch是将多条NVLink整合,在单个节点内以NVLink的速度实现多对多的GPU通信的芯片。
二者类似PCIe技术和PCIe switch的关系,但与传统的 PCIe 系统解决方案相比,NVLink能为多 GPU 系统提供更快速的替代方案。
如图所示是NVIDIA发布的几代NVLink信息7
在这里插入图片描述
在这里插入图片描述

NVLink C2C

将NVLink技术延申到芯片到芯片,将Nvidia的GPU、DPU和CPU一致性的互连起来。
基于世界领先的Serdes链路技术,通过先进封装,NVLink-C2C相比GPU上的PCIe5.0 PHY有25倍的能效提升和90倍的面积效率提升。与传统的SerDes互联相比,NVLink C2C采用了高密度单端架构和NRZ调制。

  • 支持AMBA CHI协议
  • 互联带宽为900GB/s
  • 40Gbps NRZ调制,BER<1e-12
  • 免除FEC,接口时延可以做到小于5ns

软件

参考文献

  1. Nvidia官网:DGX B200
  2. Nvidia官网:NVLink-C2C
  3. 智能计算芯世界:英伟达AI服务器NVLink版与PCIe版的差异与选择
  4. Nvidia官网:H100白皮书
  5. Nvidia官网:Blackwell 架构
  6. 极客湾:英伟达官宣全球最强AI芯片:性能提升 30 倍,并将重新设计整个底层软件堆栈
  7. NVIDIA官网:NVlink和NVswitch
  8. Will Zhang知乎:英伟达GPU架构演进近十年,从费米到安培
  9. NVIDIA官网:DGX BasePOD
  10. NVIDIA官网:DGX SuperPOD
  11. 不糊弄的说微信:NVIDIA Blackwell架构和实现详解
  12. 聚焦黄氏定律:NVIDIA 首席科学家 Bill Dally 介绍推动 GPU 性能提升的关键因素
### GB200 服务器配置 对于GB200服务器而言,其硬件组件的选择至关重要。鉴于该设备采用的是安费诺独家供应的GB200及其连接器和铜缆,这表明在构建过程中需特别注意兼容性和供应商指定的要求[^1]。 #### 初始设置 为了确保最佳性能,在安装操作系统之前应该先完成BIOS/UEFI固件更新以及驱动程序准备。由于这类高端计算平台通常预装有特定版本的操作系统镜像文件,建议遵循制造商提供的官方指南来执行这些操作。 ```bash sudo apt-get update && sudo apt-get upgrade -y ``` 此命令适用于基于Debian系统的Linux发行版,用于保持软件包列表最新并升级现有安装。 ### GB200 服务器管理 针对此类高性能计算资源的有效管理和监控同样重要。考虑到单台英伟达GB200-NVL72服务器内部复杂度较高,尤其是涉及到高速数据传输接口的价值不菲(约30万元人民币),因此推荐部署专业的数据中心管理系统(DCMS)。 通过DCMS可以实现如下功能: - 实时监测温度、功耗等物理参数; - 自动化任务调度与负载均衡; - 远程访问控制及安全策略实施; 此外,还可以利用NVIDIA自家提供的GRID Virtual Applications (VApps) 或者vGPU Manager工具来进行更细致入微的应用层面上优化调整。 ### 故障排查流程 当遇到潜在的技术难题时,可以从以下几个方面入手进行诊断分析- **硬件层面**:重点检查电源模块、风扇运转状态以及所有外部接插件是否牢固可靠。特别是那些价格昂贵的关键部件如背板连接器(价值大约21万),任何松动都可能导致整个系统不稳定甚至宕机。 - **网络通信**:确认各个节点之间的连通性良好,查看交换机端口指示灯显示正常与否,并借助ping测试或traceroute追踪路径等方式进一步验证链路质量。 - **日志审查**:收集来自不同服务进程的日志记录,比如/var/log/syslog或者Windows Event Viewer中的错误提示信息,从中寻找异常模式以便快速定位根源所在。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

KGback

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值