Nvidia HGX B200平台NVLink Switch变化

2dab0f0034c2807f6d94357bb66b03ee.jpeg

Nvidia HGX B200主板上的NVLink Switch变化

   

在2024年的Computex大展上,富士康子公司Ingrasys的展台上矗立了一块独特的Nvidia HGX B200主板。这块主板的亮点在于,它没有安装散热片。仔细观察,我们可以发现NVLink Switch Chip的数量从H100的4个减少到了2个,而且它们的位置也发生了变化。这一创新设计无疑为未来的硬件发展开辟了新的可能性。

ae457b6c6bf3da2087cb4f7af6f9cb8e.jpeg

第一代NVSwitch

第一代NVSwitch是随着Nvidia的DGX-2计算机的推出而引入的。第一代NVSwitch是一个拥有20亿晶体管、18个端口的NVLink switch。每个端口以50 GB/s的速度运行,Switch的总带宽为900 GB/s。该交换机允许最多九个设备中的任何一个被路由到其他九个设备中的任何一个。除了NVLink端口,交换机还有额外的控制和管理的I/O接口,包括x4 PCIe Gen 2管理端口、I2C和GPIO。

DGX-2使用每块基板6个NVLink来创建GPU的全连接网络。

c97a758ec370d6406cdee44a4f6e4e70.jpeg

DGX-2拥有两块基板,全面连接了所有16个V100 GPU。每个交换机有两个未启用的端口,这些端口可能会在配置中使用POWER9微处理器,因为它们原生支持NVLink 2.0。

051ea454b270c1247e1f7768463409a2.jpeg

下图展示Inspur NF5488M5 HGX2的NVSwitch散热片,共6个,清晰可见。

906bb2bf50e61394ed24ba0e857a3f92.jpeg

第二代NVSwitch

04657092d5f7dadb4fc706f35027594d.jpeg

在NVIDIA A100时代,NVSwitch散热器扩大,HGX A100平台由NVIDIA构建、预组装并发给供应商。

Inspur NF5488A5搭载NVIDIA HGX A100,6个NVSwitch散热片助力卓越性能。

a5c9d1d62a95696b9683c25b61d2f87a.jpeg

第三代NVSwitch

0ca91ef39c58b45453aa0544a6a7f297.jpeg

H100这一代,4个NVSwitch在基板的一侧。

这是ASUS ESC N8A E12 NVIDIA HGX H100 。

862e7bdf70ce9bfdfb710e414f38cb0f.jpeg

下面是Nvidia HGX H200,看上去与HGX H100的设计非常相似。

fa65f3c5871df0531865bee86cd595d9.jpeg

第四代NVLink Switch

带着散热片的HGX B100

07df8fe618d64e7fee443306090402ae.jpeg

发布会上的HGX B100图片

538f73b6bca51d4a9d485c3b51be9383.jpeg

27c31434044b2a5577acc8afcab614e8.jpeg

"通过一款无散热片设计的HGX B200主板,我们可以清楚地看到NVLink Switch芯片的安装位置。经NVIDIA官方确认,这款主板上的NVLink Switch芯片与B200版本保持一致。"

b258e54f8622c34b5f2729dfd434b708.jpeg

在这里,我们可以观察到PCIe Retimer露出散热器。这些Retimer通常搭载较小的散热器,因为它们的TDP大约在10-15W之间,具体取决于您所讨论的是Astera Labs、Broadcom还是Marvell的此尺寸版本。

078cef325f83449f9491a0f19bcedf5d.jpeg

af4bf793e73270a2da558986981c0b67.jpeg

结论

NVLink Switch芯片体积更大,将它们移动到主板中央可能有助于减少迹线长度。这对于进行高速信号传输是有益的。此外,NVIDIA B200 GPUs的四个GPU集合在两侧,这样做,进一步减少了GPU到NVLink Switches的迹线长度 。

0b45042ab94b496feb13cbdf9c2e5107.jpeg

参考资料:

请访问 servethehome.com,了解英伟达(NVIDIA)展示的大型 NVLink 交换芯片如何切换到 HTX B200 和 B100。


-对此,您有什么看法见解?-

-欢迎在评论区留言探讨和分享。-

<think>好的,用户想了解HGX验收的相关流程图,以及IT硬件验收标准和NVIDIA HGX架构。首先,我需要确定HGX验收流程的具体步骤,这可能包括硬件到货检查、物理安装验证、系统集成测试、性能验证、软件兼容性测试、文档审核以及最终验收报告。然后,IT硬件验收标准可能涉及物理检查、兼容性、性能指标、稳定性、安全性、合规性等方面。NVIDIA HGX架构部分需要解释其设计特点,比如模块化、高速互连、多GPU支持等,并结合引用中的信息,如Blackwell架构的优势。 接下来,要确保回答结构清晰,分点列出流程图、验收标准和架构解析。可能需要参考提供的引用内容,比如引用[1]、[2]、[3]提到HGX在生成式AI、数据中心加速计算中的应用,以及模块化设计,这些都可以整合到架构部分。验收流程中的性能测试可以参考引用[1]提到的推理性能提升15倍的情况。虚拟化技术方面,引用[4]提到GPU虚拟化,可能需要在验收标准或架构中提及。 用户可能需要流程图的具体步骤,虽然没有图示,但可以用文字分步描述。同时,要确保回答符合系统级指令,如使用正确的中文和LaTeX格式,生成相关问题。最后,检查引用标识是否正确添加,例如在性能指标处引用[^1],在模块化设计引用[^2]等。 需要验证HGX架构的关键技术点,如NVLink和NVSwitch,确保信息准确。验收标准中的兼容性测试可能需要考虑不同GPU模组,如Blackwell和AMD MI300X,如引用[2]所述。另外,文档审核部分需要包括技术手册和合规证明,引用[3]提到技术体系解析可能相关。最后,生成的相关问题应围绕验收流程、优化方法、虚拟化技术等,确保覆盖用户可能感兴趣的方面。</think>### HGX 验收流程图与硬件验收标准解析 #### **1. HGX 验收流程图(文字描述)** HGX 系统的验收流程通常分为以下几个阶段: 1. **硬件到货检查** - 核对设备型号(如 NVIDIA Blackwell HGX B200/B100)与订单一致性[^2] - 检查外包装完整性、配件清单(包括 GPU 模组、NVLink 连接器、电源模块等) 2. **物理安装验证** - 确认机柜部署符合散热要求(风道设计、温度监控) - 检查高速互连组件(如 NVLink/NVSwitch)的物理连接状态[^3] 3. **系统集成测试** - 通过 NVIDIA 管理工具(如 DCGM)验证 GPU 识别状态 - 测试多节点通信性能(基于 InfiniBand 或以太网架构)[^3] 4. **性能验证** - 运行基准测试(如 MLPerf)验证推理性能提升是否符合预期(Blackwell 架构宣称提升 15 倍[^1]) - 多 GPU 并行效率测试(计算密集型任务如矩阵乘法) 5. **软件兼容性测试** - 验证 CUDA、cuDNN、TensorRT 等驱动与框架版本匹配 - 测试生成式 AI 负载(如大语言模型训练)的稳定性[^2] 6. **文档与合规审核** - 核对技术手册、保修条款及安全认证(如 CE/FCC) 7. **验收报告签署** - 汇总测试数据并生成报告,确认符合合同 SLA 要求 --- #### **2. IT 硬件验收标准(NVIDIA HGX 专项)** | 类别 | 标准细则 | |----------------|--------------------------------------------------------------------------------------------| | **物理检查** | - 无物理损伤(PCB 板、散热鳍片)<br>- 序列号与采购记录一致 | | **兼容性** | - 支持多模组扩展(如 8-GPU 配置[^2])<br>- 验证与服务器厂商(如华硕)的兼容性 | | **性能指标** | - FP8/FP16 算力达到 NVIDIA 标称值(Blackwell Tensor Core)<br>- NVLink 带宽 ≥ 1.8TB/s | | **稳定性** | - 72 小时高负载压力测试(如 HPC 任务[^5])无故障<br>- 温度监控告警功能正常 | | **安全性** | - 固件已升级至最新版本(修复已知漏洞)<br>- 支持硬件级加密(如 TPM 模块) | | **合规性** | - 符合数据中心能效标准(如 PUE ≤ 1.1)<br>- 电磁兼容性(EMC)测试通过 | --- #### **3. NVIDIA HGX 架构核心解析** 1. **模块化设计** - 采用 **横向扩展(Scale-Out)** 架构,通过 NVSwitch 实现多 GPU 互联(支持 8-GPU 全连接) - 公式:互联带宽 $B_{\text{total}} = N \times B_{\text{NVLink}}$,其中 $N$ 为链路数 2. **Blackwell GPU 特性** - 第二代 Transformer 引擎,支持动态 8-bit 浮点计算: $$ \text{TOPS} = \frac{\text{Cores} \times \text{Clock} \times \text{OPs/Cycle}}{\text{Precision Factor}} $$ - 集成 **RAID 内存架构**,显存错误恢复率提升 5 倍[^1] 3. **应用场景适配** - 生成式 AI:通过张量并行技术加速千亿参数模型训练 - 数字孪生:支持实时物理仿真与多模态数据处理 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

科技互联人生

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值