NVIDIA 推出用于超大规模生成 AI 的加速以太网平台

NVIDIA 推出的 Spectrum-X 网络平台旨在提升基于以太网的 AI 云性能和效率,提供1.7倍的整体AI性能和电源效率。该平台结合了 Spectrum-4 以太网交换机和 BlueField-3 DPU,支持端到端最佳网络性能,适用于AI应用,如生成式AI、自然语言处理和计算机视觉。NVIDIA Spectrum-X 通过RoCE自适应路由、性能隔离和拥塞控制等特性,确保多租户环境下的性能一致性,并在超大规模企业中得到采用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

新的 NVIDIA Spectrum-X 网络平台结合了 NVIDIA Spectrum-4、BlueField-3 DPU 和加速软件; 世界领先的云服务提供商采用平台扩展生成式 AI 服务

COMPUTEX—— NVIDIA 今天宣布推出 NVIDIA Spectrum-X™ ,这是一个加速网络平台,旨在提高基于以太网的 AI 云的性能和效率。

NVIDIA Spectrum-X 基于网络创新,由 NVIDIA Spectrum-4 以太网交换机 与 NVIDIA BlueField®-3 DPU 的紧密耦合提供支持,实现了 1.7 倍的整体 AI 性能和电源效率,以及一致的、可预测的性能-租户环境。 Spectrum-X 由 NVIDIA 加速软件和软件开发工具包 (SDK) 增强,允许开发人员构建软件定义的云原生 AI 应用程序。

端到端功能的交付减少了大规模基于 Transformer 的生成式 AI 模型的运行时间。 这使网络工程师、AI 数据科学家和云服务提供商能够改进结果并更快地做出明智的决策。

世界顶级超大规模企业正在采用 NVIDIA Spectrum-X,包括行业领先的云创新者。

作为 NVIDIA Spectrum-X 参考设计的蓝图和测试平台,NVIDIA 正在构建 Israel-1,这是一台超大规模生成式 AI 超级计算机,将部署在其以色列数据中心基于 NVIDIA HGX™ H100 八 GPU 平台的戴尔 PowerEdge XE9680 服务器 上 , BlueField-3 DPU 和 Spectrum-4 开关。

NVIDIA 网络高级副总裁 Gilad Shainer 表示:“生成 AI 等变革性技术正在迫使每个企业突破数据中心性能的界限,以追求竞争优势。 “NVIDIA Spectrum-X 是一种新型以太网网络,它为有可能改变整个行业的下一代 AI 工作负载消除了障碍。”

NVIDIA Spectrum-X 网络平台用途广泛,可用于各种人工智能应用。 它使用完全基于标准的以太网,并可与基于以太网的堆栈互操作。

该平台从 Spectrum-4 开始,这是世界上第一款专为 AI 网络构建的 51Tb/秒以太网交换机。 高级 RoCE 扩展跨 Spectrum-4 交换机、BlueField-3 DPU 和 NVIDIA LinkX 光学器件协同工作,以创建针对 AI 云优化的端到端 400GbE 网络。

NVIDIA Spectrum-X 通过性能隔离增强多租户,以确保租户的 AI 工作负载以最佳和一致的方式运行。 它还提供更好的 AI 性能可见性,因为它可以识别性能瓶颈,并且具有完全自动化的结构验证功能。

驱动 Spectrum-X 的加速软件包括功能强大的 NVIDIA SDK,例如 Cumulus Linux 、pure SONiC 和 NetQ ,它们共同实现了网络平台的极致性能。 它还包括 NVIDIA DOCA™ 软件框架 ,它是 BlueField DPU 的核心。

NVIDIA Spectrum-X 实现了由单个交换机连接的 256 个 200Gb/s 端口的前所未有的规模,或两层叶脊拓扑中的 16,000 个端口,以支持 AI 云的增长和扩展,同时保持高水平的性能并最​​大限度地减少网络延迟.

立即采用生态系统
提供 NVIDIA Spectrum-X 的公司包括 Dell Technologies、Lenovo 和 Supermicro 。

可用性
NVIDIA Spectrum-X 、 Spectrum-4 交换机 、 BlueField-3 DPU 和 400G LinkX 光学器件现已上市。


使用 NVIDIA Spectrum-X 网络平台加速生成 AI 工作负载


大型语言模型 (LLM) 和 AI 应用程序(例如 ChatGPT 和 DALL-E)最近出现了快速增长。 得益于 GPU、CPU、DPU、高速存储和针对 AI 优化的软件创新,AI 现在可以广泛使用。 您甚至可以在云端或本地部署 AI。

然而,AI 应用程序可能会给网络带来很大的负担,这种增长给 CPU 和 GPU 服务器以及将这些系统连接在一起的现有底层网络基础设施带来了负担。

传统以太网虽然足以处理 Web 和视频或音频流等主流和企业应用程序,但并未针对支持新一代 AI 工作负载进行优化。 传统以太网非常适合松耦合应用、低带宽流和高抖动。 它对于异构流量(例如 Web、视频或音频流;文件传输;和游戏)可能就足够了,但在发生超额订阅时并不理想。

NVIDIA Spectrum-X 网络平台是一种端到端解决方案,专为满足 AI 应用程序的性能需求而全新设计,针对高速网络性能、低延迟和规模进行了优化。

NVIDIA Spectrum-X

NVIDIA Spectrum-X 网络平台旨在解决传统以太网网络的局限性。 它是一种网络结构,旨在满足要求苛刻的 AI 应用程序的需求,旨在实现紧密耦合的流程。

这种经过 NVIDIA 认证和测试的端到端解决方案结合了一流的 AI 优化网络硬件和软件,可提供 AI 工作负载所需的可预测、一致且毫不妥协的性能水平。
图 1. NVIDIA Spectrum-X 网络平台将 NVIDIA Spectrum-4 以太网交换机与 NVIDIA BlueField-3 DPU 相结合,为 AI 工作负载提供最佳性能
NVIDIA Spectrum-X 是一种高度通用的技术,可用于各种人工智能应用程序。 具体来说,它可以在以下用例中显着提高 AI 集群的性能和效率:

  • GPT 和 BERT 法学硕士
  • 分布式训练和并行处理
  • 自然语言处理 (NLP)
  • 计算机视觉
  • 高性能模拟( NVIDIA Omniverse 和 NVIDIA OVX )
  • 高性能数据分析 (Spark)
  • 推理应用

NVIDIA Spectrum-X 平台的两个关键元素是 NVIDIA Spectrum-4 以太网交换机和 NVIDIA BlueField-3 DPU 。

NVIDIA Spectrum-4 以太网交换机

NVIDIA Spectrum-4 以太网交换机为基于标准以太网构建的 AI 集群提供了前所未有的应用程序性能。 实现 NVIDIA Spectrum-4 的全部潜力需要一个端到端的、专门构建的网络架构。 只有 NVIDIA Spectrum-X 平台才能提供为超大规模 AI 提供动力所需的硬件加速器和卸载。

NVIDIA Spectrum-4 以太网交换机基于 51.2 Tbps Spectrum-4 ASIC 构建,带宽是上一代产品的 4 倍。 它是全球首个以太网AI交换平台。 它专为 AI 工作负载而设计,将专业的高性能架构与标准以太网连接相结合。

NVIDIA Spectrum-4 提供:

  • RoCE 扩展:具有独特增强功能的 RoCE
  • RoCE自适应路由
  • RoCE 性能隔离
  • 简化的自动化自适应路由和 RoCE 配置
  • 同步集体
  • 其他用于 HPC 增强功能的 RoCE
  • 大规模以太网上的最高有效带宽
  • 低延迟、低抖动和短尾
  • 确定性性能和性能隔离
  • 全栈和端到端优化
  • NVIDIA Cumulus Linux 或 SONiC

图 2. NVIDIA Spectrum-4 将专用高性能架构与标准以太网连接相结合
NVIDIA Spectrum-X 与 NVIDIA Spectrum-4 的主要优势包括:

  • 使用用于 AI 和自适应路由 (AR) 的 RoCE 扩展来实现最大的 NVIDIA 集体通信库 (NCCL) 性能。
  • 利用性能隔离来确保在多租户和多作业环境中,一项作业不会影响另一项作业。
  • 确保在出现网络组件故障时,结构继续提供最高性能
  • 与 BlueField-3 DPU 同步以实现最佳 NCCL 和 AI 性能
  • 在各种 AI 工作负载下保持一致和稳定的性能,这对于实现 SLA 至关重要。

端到端最佳网络性能

要构建有效的 AI 计算结构,需要优化 AI 网络的每个部分,从 DPU 到交换机再到网络软件。 在负载和规模上实现最高有效带宽需要使用 RoCE 自适应路由和高级拥塞控制机制等技术。 结合在 NVIDIA BlueField-3 DPU 和 Spectrum-4 交换机上同步工作的功能对于实现 AI 结构的最高性能和可靠性至关重要。

RoCE自适应路由

AI 工作负载和应用程序的特点是少量大象流负责 GPU 之间的大量数据移动,其中尾部延迟会严重影响整体应用程序性能。 使用传统网络路由机制来迎合此类流量模式可能会导致 AI 工作负载的 GPU 性能不一致且未得到充分利用。

RoCE自适应路由是一种细粒度的负载均衡技术。 它动态重新路由 RDMA 数据以避免拥塞并提​​供最佳负载平衡以实现最高有效数据带宽。

它是一种端到端功能,包括 Spectrum-4 交换机和 BlueField-3 DPU。 Spectrum-4 交换机负责为每个数据包选择最不拥塞的端口进行数据传输。 由于同一流的不同数据包通过网络的不同路径传输,它们可能会乱序到达目的地。 BlueField-3 在 RoCE 传输层转换任何无序数据,透明地将有序数据交付给应用程序。

Spectrum-4 根据出口队列负载评估拥塞,确保所有端口均衡。 对于每个网络数据包,交换机都会在其出口队列中选择负载最小的端口。 Spectrum-4 还接收来自相邻交换机的状态通知,这会影响路由决策。 评估的队列与服务质量级别相匹配。

因此,NVIDIA Spectrum-X 在超大规模系统负载和规模上实现了高达 95% 的有效带宽。
图 3. NVIDIA Spectrum-4 典型数据中心部署结构

RoCE拥塞控制

由于网络级拥塞,在超大规模云系统上同时运行的应用程序可能会出现性能下降和可重现的运行时间问题。 这可能是由应用程序本身的网络流量或来自其他应用程序的后台网络流量引起的。 这种拥塞的主要原因称为多对一拥塞,其中有多个数据发送方和一个数据接收方。

这种拥塞无法使用自适应路由来解决,实际上需要每个端点的数据流计量。 拥塞控制是一种端到端技术,其中 Spectrum-4 交换机提供代表实时拥塞数据的网络遥测信息。 此遥测信息由 BlueField DPU 处理,后者管理和控制数据发送方的数据注入率,从而实现网络共享的最大效率。

如果没有拥塞控制,多对一场景将导致网络背压和拥塞扩散甚至丢包,从而极大地降低网络和应用程序性能。

在拥塞控制过程中,BlueField-3 DPU 执行拥塞控制算法。 它们以微秒级反应延迟每秒处理数百万个拥塞控制事件,并应用细粒度的速率决策。

Spectrum-4 交换机带内遥测既包含用于准确估计拥塞的排队信息,也包含用于快速恢复的端口利用率指示。 NVIDIA RoCE 拥塞控制使遥测数据能够绕过拥塞流排队延迟,同时仍提供准确和并发的遥测,从而显着改善拥塞发现和反应时间。

RoCE 性能隔离

AI 超大规模和云基础设施需要支持越来越多的用户(租户)和并行应用程序或工作流。 这些用户和应用程序会无意中争夺基础架构的共享资源(例如网络),因此可能会影响性能。

NVIDIA Spectrum-X 平台包含的机制结合起来可提供性能隔离。 它确保一个工作负载不会影响另一个工作负载的性能。 这些机制确保任何工作负载都不会造成会影响另一个工作负载的数据移动的网络拥塞。 性能隔离机制包括服务质量隔离、用于数据路径传播的RoCE自适应路由和RoCE拥塞控制。

NVIDIA Spectrum-X 平台具有软件和硬件的紧密集成,能够更深入地了解 AI 工作负载和流量模式。 这样的基础架构提供了使用专用以太网 AI 集群测试大型工作负载的能力。 通过利用 Spectrum 以太网交换机和 BlueField-3 DPU 的遥测技术, NVIDIA NetQ 可以主动检测网络问题并更快地解决网络问题,以优化网络容量的使用。

NVIDIA NetQ 网络验证和 ASIC 监控工具集提供了对网络健康和行为的可见性。 NetQ 流遥测分析显示数据流在穿过网络时所采用的路径,从而提供网络延迟和性能洞察。

提高能源效率

由于对计算资源的需求不断增长以及控制能源成本的需要,功率封顶已成为数据中心的常见做法。 Spectrum-4 ASIC 和光学创新可简化网络设计,提高每瓦性能,实现更高效率并提供更快的 AI 洞察力,而不会超出网络功率预算。

概括

NVIDIA Spectrum-X 网络平台专为要求苛刻的人工智能应用而设计。 与传统以太网相比,NVIDIA Spectrum-X 具有更高的性能、更低的功耗、更低的 TCO、全堆栈软硬件集成和大规模,是运行现有和未来 AI 工作负载的理想平台。

<think>好的,用户想了解HGX验收的相关流程图,以及IT硬件验收标准和NVIDIA HGX架构。首先,我需要确定HGX验收流程的具体步骤,这可能包括硬件到货检查、物理安装验证、系统集成测试、性能验证、软件兼容性测试、文档审核以及最终验收报告。然后,IT硬件验收标准可能涉及物理检查、兼容性、性能指标、稳定性、安全性、合规性等方面。NVIDIA HGX架构部分需要解释其设计特点,比如模块化、高速互连、多GPU支持等,并结合引用中的信息,如Blackwell架构的优势。 接下来,要确保回答结构清晰,分点列出流程图、验收标准和架构解析。可能需要参考提供的引用内容,比如引用[1]、[2]、[3]提到HGX在生成AI、数据中心加速计算中的应用,以及模块化设计,这些都可以整合到架构部分。验收流程中的性能测试可以参考引用[1]提到的推理性能提升15倍的情况。虚拟化技术方面,引用[4]提到GPU虚拟化,可能需要在验收标准或架构中提及。 用户可能需要流程图的具体步骤,虽然没有图示,但可以用文字分步描述。同时,要确保回答符合系统级指令,如使用正确的中文和LaTeX格式,生成相关问题。最后,检查引用标识是否正确添加,例如在性能指标处引用[^1],在模块化设计引用[^2]等。 需要验证HGX架构的关键技术点,如NVLink和NVSwitch,确保信息准确。验收标准中的兼容性测试可能需要考虑不同GPU模组,如Blackwell和AMD MI300X,如引用[2]所述。另外,文档审核部分需要包括技术手册和合规证明,引用[3]提到技术体系解析可能相关。最后,生成的相关问题应围绕验收流程、优化方法、虚拟化技术等,确保覆盖用户可能感兴趣的方面。</think>### HGX 验收流程图与硬件验收标准解析 #### **1. HGX 验收流程图(文字描述)** HGX 系统的验收流程通常分为以下几个阶段: 1. **硬件到货检查** - 核对设备型号(如 NVIDIA Blackwell HGX B200/B100)与订单一致性[^2] - 检查外包装完整性、配件清单(包括 GPU 模组、NVLink 连接器、电源模块等) 2. **物理安装验证** - 确认机柜部署符合散热要求(风道设计、温度监控) - 检查高速互连组件(如 NVLink/NVSwitch)的物理连接状态[^3] 3. **系统集成测试** - 通过 NVIDIA 管理工具(如 DCGM)验证 GPU 识别状态 - 测试多节点通信性能(基于 InfiniBand 或以太网架构)[^3] 4. **性能验证** - 运行基准测试(如 MLPerf)验证推理性能提升是否符合预期(Blackwell 架构宣称提升 15 倍[^1]) - 多 GPU 并行效率测试(计算密集型任务如矩阵乘法) 5. **软件兼容性测试** - 验证 CUDA、cuDNN、TensorRT 等驱动与框架版本匹配 - 测试生成AI 负载(如大语言模型训练)的稳定性[^2] 6. **文档与合规审核** - 核对技术手册、保修条款及安全认证(如 CE/FCC) 7. **验收报告签署** - 汇总测试数据并生成报告,确认符合合同 SLA 要求 --- #### **2. IT 硬件验收标准(NVIDIA HGX 专项)** | 类别 | 标准细则 | |----------------|--------------------------------------------------------------------------------------------| | **物理检查** | - 无物理损伤(PCB 板、散热鳍片)<br>- 序列号与采购记录一致 | | **兼容性** | - 支持多模组扩展(如 8-GPU 配置[^2])<br>- 验证与服务器厂商(如华硕)的兼容性 | | **性能指标** | - FP8/FP16 算力达到 NVIDIA 标称值(Blackwell Tensor Core)<br>- NVLink 带宽 ≥ 1.8TB/s | | **稳定性** | - 72 小时高负载压力测试(如 HPC 任务[^5])无故障<br>- 温度监控告警功能正常 | | **安全性** | - 固件已升级至最新版本(修复已知漏洞)<br>- 支持硬件级加密(如 TPM 模块) | | **合规性** | - 符合数据中心能效标准(如 PUE ≤ 1.1)<br>- 电磁兼容性(EMC)测试通过 | --- #### **3. NVIDIA HGX 架构核心解析** 1. **模块化设计** - 采用 **横向扩展(Scale-Out)** 架构,通过 NVSwitch 实现多 GPU 互联(支持 8-GPU 全连接) - 公式:互联带宽 $B_{\text{total}} = N \times B_{\text{NVLink}}$,其中 $N$ 为链路数 2. **Blackwell GPU 特性** - 第二代 Transformer 引擎,支持动态 8-bit 浮点计算: $$ \text{TOPS} = \frac{\text{Cores} \times \text{Clock} \times \text{OPs/Cycle}}{\text{Precision Factor}} $$ - 集成 **RAID 内存架构**,显存错误恢复率提升 5 倍[^1] 3. **应用场景适配** - 生成AI:通过张量并行技术加速千亿参数模型训练 - 数字孪生:支持实时物理仿真与多模态数据处理 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值