Nvidia推出Blackwell B200 GPU,是目前最强的人工智能芯片

昨天,Nvidia 展示了其最新的 Blackwell GPU 架构。作为备受关注的 AI 芯片领域巨头 Hopper 平台的后续版本,Blackwell 架构将使得处理大规模 AI 模型时的推理性能提高高达 30 倍,同时能源消耗降低 96%。

Nvidia 的 Blackwell

在近五年来首次举行的线下 GTC 活动上,这家总部位于加利福尼亚州圣克拉拉的公司于周一向外界展示了首批采用 Blackwell 架构的 GPU 设计。Nvidia 表示,这些设计搭载了六项旨在加速计算的创新技术,将助力在生成式 AI、数据处理等多个领域实现技术突破。

预计这些新设计将在今年晚些时候发布,具体时间尚未公布。预计会提供基于 Blackwell 架构的云服务的供应商包括 Amazon Web Services、Microsoft Azure、Google Cloud 和 Oracle Cloud Infrastructure,以及 Lambda、CoreWeave 和 IBM Cloud 等其他公司。

在服务器市场上,Cisco Systems、Dell Technologies、Hewlett Packard Enterprise、联想和 等公司预计将推出一系列基于 Blackwell 架构的系统。支持这些 GPU 的其他原始设备制造商(OEM)包括 ASRock Rack、华硕、Eviden 和技嘉(Gigabyte)。

自从 2022 年 ChatGPT 和 Stable Diffusion 等生成式 AI 应用上线以来,Blackwell 是 Nvidia 针对数据中心 GPU 推出的首次架构更新。这一更新掀起了 AI 开发领域的新一轮高潮和投资热潮,为那些投资于相关技术的合作伙伴带来了益处。

这种热潮已经为 Nvidia 带来了丰厚的回报,其 GPU 已成为这些应用背后的模型训练和运行的核心动力。由此带来的 GPU 高需求,如 H100 及相关系统,成为 Nvidia 去年收入翻倍至 609 亿美元的主要因素,其收入甚至超过了 Intel。

▶01、Blackwell 的设计包括 B100、B200 和 GB200

首批确认采用 Blackwell 架构的设计包括 B100 和 B200 GPU,这两款 GPU 分别是基于 Hopper 的 H100 和 H200 在 x86 系统中的后续产品。预计 B200 将拥有比 B100 更大的高带宽内存容量。

Nvidia CEO 黄仁勋左边举着他的新 GPU,右边是 H100

首批设计还包括了 GB200 Grace Blackwell Superchip,它在一个封装中将 B200 GPU 与该公司基于 Arm 的 72 核 Grace CPU 结合起来,该 CPU 此前曾与 H200 和 H100 搭配使用。

与将单个 Grace CPU 与 Hopper GPU 结合在一起的 Grace Hopper Superchips 不同,Grace Blackwell Superchip 将单个 Grace CPU 与两个 Blackwell GPU 结合,其性能与第一代相比有了明显提升。

GB200:两个 GPU、一个 CPU、一块主板

在处理最为苛刻的 AI 工作负载,尤其是那些结合了多个模型、参数数量超过 1 万亿的复杂大型 AI 模型(被称为 “专家混合模型”)时,Nvidia 认为 GB200 是 Blackwell 架构真正大放异彩的地方。

Nvidia 表示,在一个配置有 18 个 GB200 的液冷系统中,36 个 Blackwell GPU 能够提供高达风冷系统中 64 个 H100 GPU 的 30 倍 LLM 推理性能。

虽然 Nvidia 承诺在推理性能、能源效率和成本方面取得了大幅进步,但 Blackwell 最高性能配置的能源需求也相应增加。公司表示,Blackwell 的配置范围从 700 瓦特(Hopper 的最高功率,也是风冷 HGX B100 形态的最高功率)到 1200 瓦特(GB200 在新型液冷机架架构中所需的功率) 。

02、Blackwell 搭载多达 2080 亿个晶体管

Nvidia 的数据中心 GPU 设计发生了转变,Blackwell 将 “两个可能最大的芯片” 整合到一个封装中。公司指出,这些芯片通过 10 TB/s 的超高速芯片间连接技术相连,使其能够作为一个 “单一且统一的 GPU” 运行,而不会出现传统芯片组方案中的编程行为缺陷。这一创新使 GPU 的晶体管总数达到了惊人的 2080 亿个,较前代产品 H100 增加了 160%。

生成式 AI 正在推动 Nvidia 向 Blackwell 迈进

实现这一设计的关键在于台积电为 Nvidia 量身定制的两掩模版极限 4NP 制造工艺。Nvidia 称这是 Blackwell “革命性技术” 之一。

一位 Nvidia 的发言人在接受 CRN 采访时表示,“Blackwell 并非芯片组设计”。芯片组设计是指在一个封装中连接多个小芯片的方法,多年来这种设计一直是 AMD 的选择,例如其 Instinct MI300 数据中心 GPU,而最近英特尔也采用了这种设计,应用于其更广泛的产品线,包括 Max 系列数据中心 GPU。

03、第二代 Transformer 引擎助力 Blackwell 加速 AI 性能

在 AI 性能方面,Blackwell GPU 能够实现高达 20 拍的浮点运算性能,即每秒 20 万亿次计算。这一数据来自 Nvidia 超大规模和高性能计算部门副总裁 Ian Buck。

Nvidia 表示将通过 Blackwell 添加 FP4 和 FP6

这是使用一种称为四位浮点数(FP4)的新数值格式测量的,它的精度低于 Blackwell 的前代产品 Hopper 引入并用于每个 H100 提供 4 拍浮点运算的 FP8 格式。

“达到如此精细的计算级别本身就是一个奇迹,”Buck 在一次简报中表示。

这一创新得益于 Blackwell 的第二代 Transformer 引擎。该引擎最初在 Hopper 中引入,旨在加速基于 Transformer 架构的模型,这种架构在当今 AI 领域占据主导地位,比如 LLM 和扩散模型。

Buck 解释称,Transformer 引擎最初设计的目的是 “追踪 GPU 中每个张量计算单元的每一层的准确性”。在 GPU 训练模型过程中,该引擎会 “不断监控每一层的数值范围,并调整以保持在数值精度的边界内,以实现最佳性能”。

作为 Blackwell “六大革命性技术” 之一,第二代 Transformer 引擎通过 “微张量缩放” 实现了更精细的监控,允许引擎查看 “张量内的单个元素”。

Nvidia 的 TensorRT-LLM 开源软件库也为 Blackwell 达到单 GPU 20 拍的浮点运算性能提供了帮助。该公司去年发布了这个库,旨在将 H100 GPU 上的 LLM 的推理性能提高一倍,同时还推出了 NeMo Megatron 框架,用于训练这些模型。

04、第五代 NVLink 实现 576 个 GPU 之间的高速连接

Nvidia 宣称 Blackwell 的另一项重要技术升级是第五代 NVLink 芯片间互连技术,它使 GPU 之间能够实现高速通信。

新一代 NVLink 使每个 GPU 的双向吞吐量达到了 1.8 TB/s,是 Hopper 使用第四代 NVLink 实现的 900 GB/s 的两倍。

此外,它还大幅提高了可以以这些速度进行通信的 GPU 数量,实现了高达 576 个 GPU 之间的 “无缝高速通信”。这比 Hopper 中 NVLink 支持的最多 256 个 GPU 有明显增加。

Buck 指出,这一升级解决了运行大规模 AI 模型的大型 GPU 集群中日渐增长的瓶颈问题,例如运行包含多个协同工作以执行复杂功能并提供更好响应的 1.8 万亿参数的专家混合模型。

“如果你运行像 GPT-4 这样的模型,它是 1.8 万亿参数的专家混合模型,你可能会花费高达 60% 的时间进行数据通信,只有 40% 的时间进行计算,”Buck 表示,这是在使用基于 Hopper 的 Nvidia GPU 的情况下的一个场景。

05、Blackwell 的其他升级

Blackwell 的其他主要技术升级包括:

  • 专门的 RAS(可靠性、可用性和服务性能)引擎。这些特性通常在服务器 CPU 中发现,例如 Intel 的 Xeon 芯片。Nvidia 的 RAS 解决方案还包括芯片级的基于 AI 的预防性维护功能,旨在减少大规模部署的停机时间。

  • 高级的保密计算功能,能够 “在不影响性能的情况下保护 AI 模型和客户数据。” 这包括对 “新的本地接口加密协议” 的支持。

  • 专门的解压缩引擎,可加速数据分析和数据科学应用程序的数据库查询,Nvidia 将其视为 GPU 的重要发展方向。

06、Blackwell 将助力新型 DGX 系统

Nvidia 正在推出两款搭载 Blackwell GPU 的新型 DGX 系统:

  • DGX B200,一款空气冷却设计,将 B200 GPU 与 x86 CPU 配对,可用于 DGX SuperPod 集群。

  • DGX GB200,一款液冷设计,使用 GB200 Grace Hopper GPU。八套此系统构成一个 DGX SuperPod 集群,共含 288 个 Grace CPU、576 个 B200 GPU 和 240TB 的高速内存。这使 DGX SuperPod 能够实现 11。5 拍浮点运算,即每秒 1000 亿次计算的 FP4 计算能力。

GB200 基础的 SuperPod 使用 Nvidia 与 AWS 合作推出的新版机架规模架构制造,用于支持大型生成式 AI 应用。

GB200 NVL72

Nvidia 表示,它被称为 GB200 NVL72,是一个 “面向最计算密集型工作负载的多节点、液冷、机架规模系统”,包含 36 个 GB200 Grace Blackwell Superchip 以及公司的 BlueField-3 数据处理单元(DPU)。

这些 DPU 旨在 “在超大规模 AI 云中实现云网络加速、可组合存储、零信任安全和 GPU 计算弹性”,该公司表示。

GB200 NVL72 系统将成为 Microsoft Azure、AWS、谷歌云和甲骨文云基础设施提供基于 Blackwell 的实例的基础,后三者将在这些系统上提供 Nvidia 的 DGX 云服务。

Nvidia 的 Blackwell 芯片将进入大型服务器系统

Nvidia 计划允许 OEM 和其他合作伙伴使用 HGX 服务器板构建自己的基于 Blackwell 的系统,该板连接八个 B100 或 B200 GPU。公司尚未宣布在标准服务器中提供 Blackwell GPU 的 PCIe 卡的计划。

07、两款新的高速网络平台

为了实现这些系统之间的高带宽连接,Nvidia 宣布了两款新的高速网络平台,提供高达 800 GB/s 的速度:Quantum-X800 InfiniBand 平台和 Spectrum-X800 以太网平台。

Nvidia 表示,Quantum-X800 包括 Quantum 3400 交换机和 ConnectX-8 SuperNIC,可提供五倍的带宽容量,并为网络内计算提供了九倍的增长,达到 14.4 拍浮点运算。

另一方面,Spectrum-X800 “优化了网络性能,有助于加快 AI 工作负载的处理、分析和执行”,据 Nvidia 称。公司表示,这将加快 “AI 解决方案的开发、部署和上市时间”。

08、构建生态,入场具身智能

除了硬件系统,Nvidia也利用生成式 AI 构建了一系列元宇宙、工业数字孪生、机器人训练软件体系。

Nvidia表示,它正在将 Omniverse 企业技术引入苹果。这个想法是让开发人员通过 Vision Pro 在 AR/VR 设置中使用 Omniverse 工具。在 GTC 上,Nvidia展示了设计师是如何通过 Vision Pro 使用汽车配置工具来操纵车辆,然后虚拟地进入其中的。人们可以通过 Omniverse Cloud API 以及通过云端直接流式传输到 Vision Pro 的图形传输网络来做到这一点。

最后,还有前沿方向机器人的工作,Nvidia公布了人形机器人项目 GR00T。

在演讲中,黄仁勋展示了多个由 GR00T 驱动的人形机器人如何完成各种任务,包括来自 Agility Robotics、Apptronik、傅利叶智能(Fourier Intelligence) 和宇树科技(Unitree Robotics) 的机器人产品。

GR00T 脱胎于Nvidia的 Isaac 机器人平台工具,基于新的通用基础模型,GR00T 驱动的人形机器人能够接受文本、语音、视频甚至现场演示的输入,并对其进行处理以采取特定的操作,包括理解自然语言、模拟人类行为、在现实世界中导航和交互。

Nvidia还开发了一种新型「机器人大脑」计算芯片 Jetson Thor,能够执行复杂的任务并使用 Transformer 引擎处理多个传感器。

人形机器人赛道近期达到了一个新的火热程度。就比如Nvidia的「大客户」OpenAI,一直在使用自己的 AI 模型来为一家名为 Figure 的初创公司的人形机器人提供支持。

现在Nvidia也把它摆在了重要位置,正如黄仁勋所说:「机器人的 ChatGPT 时刻可能即将到来。」

你准备好了吗?

原文链接:https://www.crn.com/news/components-peripherals/2024/nvidia-reveals-next-gen-blackwell-gpus-promised-to-unlock-breakthroughs-in-genai

END

为助力更多企业在人工智能的浪潮中乘风破浪,“AI+研发数字峰会(AiDD)”应运而生,旨在帮助更多企业借助AI技术,使计算机能够更深入地认知现实世界,推动研发迈进数智化时代。AiDD峰会即将于2024年5月17-18日上海举办,欢迎扫码了解会议详情!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值