【微知】关于GB200 NVL72服务器的一些信息?(36CPU72GPU;LPDDR5X 17T;HBM3e 13.5T;5代NVlink 1.8TB; 720P算力FP8;120Kw)

背景

GB200 NVL72就目前来看可谓是超级巨无霸级别的存在,72个B200的GPU+36个Grace的CPU放在一个服务器里面,GPU显存13500GB(4090标配的才16G,接近800倍),内存17T,显内存总的达到了30TB(17T+13.5T)。光是功耗问题就必须用液冷,据说早期功耗问题都都一度成为可能流产的原因。本文简单记录NVL72的一些关键信息,仅根据官网介绍分析,存在纰漏仅供参考。
GB200 NVL72实物图:一个rack(机柜)。相当于“一张机柜这么大的显卡”
在这里插入图片描述

要点

  • GB200 NVL72是一个服务器,需要机柜级别才能放下的服务器
  • GB是G和B的合称,G代表的是CPU,表示Grace CPU ;B代表的是GPU的型号,Blackwell GPU。类似HGX B200就只有GPU(8个B200的)
  • NVL72中NVL是NVLink,72表示72个GPU,表示有72个GPU通过NVLink进行机内通信。类似的还有NVL2表示2个GPU的服务器。
  • GB200 NVL72是由36 个 Grace CPU 和 72 个 Blackwell GPU。
  • GB200 NVL72 是一款液冷机架级解决方案
  • GB200 NVL72 使用的核心组件芯片不是多个B200和多个Grace CPU独立组成,而是一个叫做GB200 Grace Blackwell 的超级芯片,也叫Blackwell Superchip。 该超级芯片应该是使用类似chiplet技术,做了2+1+2, 把2颗B200 + 1颗Grace CPU + 2颗Blackwell Tensor Core GPU组合到一起,使用的是 NVLink-C2C的互联技术。说白了就是GPU之间通过NVLink高速高带宽低延迟总线互联到一起。(?可能是fullmesh的结构)(可能有误,仅供参考)。 主要是1 Grace CPU + 2 B200 GPU
  • 另外每个计算托盘上放了两颗超级芯片,也就是2 CPU + 4 GPU。包含4颗ConnectX-8SuperNIC芯片与1颗BlueField-3DPU芯片。 每个GPU和网卡是1:1的配置。另外BF3大概率是作为机头配合CPU做一些卸载动作,比如snap。
  • 使用第二代 Transformer 引擎,支持FP4,主要支持FP8
  • 使用第五代 NVLink
  • 使用新一代 Tensor core,支持微缩放格式。 (具体哪一代?)
  • 72-GPU机架
  • GPU到GPU互连通过NVlink可以达到1.8T/s
  • GB200 NVL72使用的网卡是BlueField-3 DPU 提供400GB/s的性能
  • FP8的Tensor,可以达到720 PFLOPS。72个GPU,所以单个GPU的FP8是10P,也就是10个1000T的
  • GPU内存使用的是HBM3e,带宽:13.5 TB 容量。576 TB/s的内存带宽。对比来看一张4090的卡GPU内存容量有12G,16G,24G。 这个13500GB容量。1.35万GB对比12GB。
  • CPU内存使用的是LPDDR5X。 17 TB的容量。内存带宽 18.4 TB/s。 相当于1.7万BG的内容,VS笔记本16GB的容量。支持error-correction code (ECC)校验。GPU+CPU总内存达到30.5T,也就是30万GB的内存。
  • 形态:一个机柜大小(rack)
  • 功耗120Kw。普通台式机ATX电源850W。普通该服务器2U的一半1.2Kw。相当于100个2U服务器(也合理 72个GPU+36个CPU)。现在的机房一般单机柜10Kw?记不清了。
  • PCIe Gen5的,Gen5的单lane可以32GT/s, 如果是32 lanes,32*32/8=128GB/s的速率。不过对比NVLink 也是5代,直接干到1.8TB/s注意还是大B。1.8T/128G=14个 x32的PCIe Gen5。 差不多28个x16的 PCIe Gen5。如果用4090这种x16的显卡来看。就是NVLink的速率金手指要32张4090的金手指排在一起这么长。(速记:14倍于PCIe Gen5的x32)

其他照片

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

参考:
https://www.nvidia.com/en-us/data-center/gb200-nvl72/?ncid=no-ncid
https://nvdam.widen.net/s/wwnsxrhm2w/blackwell-datasheet-3384703
https://xueqiu.com/2671458018/292311609

### NVIDIA GB200 NVL72 规格与信息 #### 架构概述 NVIDIA GB200 NVL72 是一款先进的液冷机架解决方案,集成了最新的 Blackwell 系列 GPU 技术。该系统由 36 个 NVIDIA GB200 Grace Blackwell 超级芯片组成,其中包括 72 个基于 NVIDIA Blackwell 的 GPU36 个 NVIDIA Grace CPU[^2]。 #### 连接技术 GB200 NVL72 利用了第五 NVIDIA NVLink 技术来实现实现高效的互连通信。这种连接方式使得整个系统能够作为一个单一的大规模 GPU 来运作,极大地提升了数据传输速度和处理效率。 #### 性能表现 在 GPT-MOE-1.8T 模型推理测试中,GB200 NVL72 展现出卓越的性能优势。其单卡每秒吞吐量达到了 HGX H100 的 30 倍,这表明了新架构下显著增强的推理能和更高的性价比[^4]。 #### 配置详情 GB200 NVL72 在一个标准机架内配置了 72GPU18 个双 GB200节点。此外,还有一种配置是在两个独立机架中共部署 72GPU 并配备相同数量的计节点。这样的设计既满足了大规模并行运的需求,又兼顾了灵活性和扩展性[^3]。 ```python # Python 示例码展示如何模拟 GB200 NVL72 中的一个基本计单元之间的通讯机制 import numpy as np class GPUNode: def __init__(self, id): self.id = id def communicate(self, other_node): print(f"Node {self.id} communicating with Node {other_node.id}") nodes = [GPUNode(i) for i in range(72)] # 创建 72GPU 节点实例 for i in range(len(nodes)): nodes[i].communicate(nodes[(i + 1) % len(nodes)]) # 模拟环形拓扑结构下的相邻节点间通讯 ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值