NVIDIA 的 Blackwell 架构：解析 B100、B200 和 GB200

Ai17316391579

于 2024-09-27 14:29:22 发布

阅读量512

点赞数 17

分类专栏：深度学习服务器文章标签：人工智能机器学习服务器自动驾驶电脑 AI写作 gpu算力

本文链接：https://blog.csdn.net/Ai17316391579/article/details/142592557

版权

深度学习服务器专栏收录该内容

57 篇文章 4 订阅

订阅专栏

随着人工智能和机器学习领域继续以惊人的速度发展，NVIDIA 的最新创新——Blackwell 架构，将以无与伦比的并行计算能力重新定义AI和HPC。

NVIDIA 展示了一系列新技术，有望以前所未有的方式加速 AI 训练和推理。他们推出了 Blackwell GPU、GB200 Super Chip 和GB200 NVL72。每一个都代表着突破性的创新。

在本文中，我们将深入分析 NVIDIA 的 Blackwell 架构。它对于高性能计算意味着什么？它如何改进 Hopper 架构？然后，我们将逐一介绍每款新产品。

Blackwell vs Hopper

Blackwell 架构以大卫·布莱克威尔命名，受人尊敬的数学家和统计学家。布莱克威尔在博弈论和统计学方面的开创性工作和贡献在该领域留下了不可磨灭的印记，使他的名字成为数学科学创新和卓越的代名词。这一致敬反映了新平台的开创性和先进的计算能力。

NVIDIA 的 Blackwell 架构将拥有迄今为止最大的芯片，拥有 1040 亿个晶体管。Blackwell GPU（B100 和 B200）采用双芯片组设计，与 Hopper 相比有了重大飞跃。例如，B100 的晶体管数量比 H100 多 1280 亿个，AI 性能是 H100 的五倍。

NVIDIA 的 Blackwell GPU 包含 2080 亿个晶体管，采用定制的 TSMC 4NP 工艺制造。所有 Blackwell 产品都采用两个光罩限制芯片，通过每秒 10 兆兆字节 (TB/s) 连接芯片间互连在统一的单个 GPU 中。

Blackwell 架构通过以下方式提供更佳的性能：

FP8性能： Blackwell架构在FP8精度下提供20 PetaFLOPS（PFLOPS）的性能，是Hopper架构性能的2.5倍。
FP6 性能：与 FP8 一样，Blackwell 架构上的 FP6 性能也是 20 PFLOPS，比 Hopper 架构提高了 2.5 倍。
FP4 性能：这是一个重大飞跃，Blackwell 在新的 FP4 指标中提供了 40 PFLOPS，是 Hopper 性能的五倍。这表明它非常重视提高低精度计算的性能，这对于 AI 推理至关重要。
HBM 模型大小： NVIDIA 的 Blackwell 架构支持高达 7400 亿个参数的模型，这是 Hopper 架构所能管理的模型的六倍。这一大幅提升支持开发和运行更大、更复杂的 AI 模型。
HBM 带宽： Blackwell 上的高带宽内存 (HBM) 带宽为每参数秒 34 兆兆字节 (TB/s)，是 Hopper 上可用带宽的五倍。这允许更快的数据传输速率，从而显著提高计算性能。
采用 SHARP 技术的 NVLink All-Reduce： Blackwell 架构采用 SHARP 技术，提供 7.2 TB/s 的 NVLink all-reduce 功能，是 Hopper 架构功能的四倍。SHARP（可扩展分层聚合和缩减协议）增强了集体通信操作，这对于分布式 AI 和机器学习任务至关重要。

借助 Blackwell 架构，NVIDIA 推出了第五代 NVLink，提供前所未有的并行性和带宽水平，远远超过 Hopper 架构的功能。这些进步凸显了 Blackwell 为下一代人工智能和高性能计算应用提供支持的潜力。

Blackwell 架构还配备了 Secure AI。Secure AI 即使在使用时也能保护您的 AI 数据。它提高了安全性，同时又不降低速度。这使得公司可以安全地开展最复杂的 AI 项目，保护他们的想法，并实现设备之间的安全训练、分析和信息共享。

Blackwell 还具有智能弹性，配备专用的可靠性、可用性和可服务性 (RAS) 引擎，可及早识别可能发生的潜在故障，从而最大限度地减少停机时间。其 RAS 引擎提供深入的诊断信息，以识别问题区域并规划维护。

NVIDIA 还推出了一套全面的产品，利用 Blackwell 架构重塑计算领域。以下是其中一些产品。

NVIDIA B100 和 B200

NVIDIA 正在 Blackwell 架构的基础上推出两款新 GPU，即 B100 和 B200。这些 GPU 采用双芯片设计，每个芯片包含四个 HBM3e 内存堆栈，每个堆栈提供 24GB 容量，在 1024 位接口上提供 1 TB/s 的带宽。

B100 和 B200 GPU 还提高了浮点运算的精度。它们配备了一个转换引擎，可以在可能的情况下动态自动地重新缩放数值精度并将其重新转换为较低的格式。这可以改善机器学习计算，因为在处理较小的浮点数时，计算的准确性会影响机器学习模型的能力和准确性。

虽然 NVIDIA 没有明确提供 B100 和 B200 GPU 的基准测试，但我们根据以下方面细分了它们的规格：

NVIDIA B100

B100 Blackwell GPU 提供均衡的计算效率。它为密集 FP4 张量运算提供高达 7 PFLOPS，其中“密集”表示张量的大多数元素都非零，需要进行全面计算。相比之下，它为稀疏 FP4 运算提供高达 14 PFLOPS，其中“稀疏”表示大多数元素为零，由于需要计算的非零元素较少，因此可以实现优化、更快的处理。

对于平衡精度和计算速度至关重要的 FP6/FP8 张量，B100 在密集/稀疏任务中分别达到 3.5/7 PFLOPS。其对快速数据推理至关重要的 INT8 张量性能在密集/稀疏场景中达到 3.5/7 POPS。

在更高精度要求下，B100 的 FP16/BF16 张量在密集/稀疏计算中以 1.8/3.5 PFLOPS 运行，TF32 张量以 0.9/1.8 PFLOPS 运行，支持一系列精确计算任务。此外，它还为需要最高精度的科学应用提供 30 TFLOPS 的 FP64 密集计算。

GPU 拥有 192GB 内存，可处理大量数据。它支持 8 TB/s 内存带宽和等效 1.8 TB/s NVLink 带宽，可实现快速数据通信。B100 的功率规格为 700W，对于需要平衡功率和性能的复杂计算设置而言，它是一种节能的选择。

NVIDIA B200

B200 Blackwell GPU 在密集 FP4 张量运算中实现高达 9 PFLOPS，在稀疏 FP4 张量运算中实现高达 18 PFLOPS。对于 FP6/FP8 张量运算，在精度和速度之间取得平衡，B200 分别记录了密集/稀疏活动的 4.5/9 PFLOPS。其 INT8 张量能力对于快速数据分析和推理至关重要，在密集/稀疏计算中达到 4.5/9 POPS，确保高效的实时处理。

B200 在精密任务中表现出色，密集/稀疏 FP16/BF16 张量为 2.25/4.5 PFLOPS，密集/稀疏 TF32 张量为 1.2/2.25 PFLOPS，适用于各种科学和机器学习应用。对于最终精度，例如在详细的科学计算中，它在 FP64 密集计算中提供了稳定的 40 TFLOPS。

B200 配备 192GB 内存，可增强大规模数据处理能力。它支持 8 TB/s 内存带宽和相应的 1.8 TB/s NVLink 带宽，可实现快速高效的数据传输。B200 的额定功耗为 1000W，专为在苛刻的计算环境中实现节能而设计，在高端性能和功耗之间实现平衡。

GB200 和 GB200 NVL72

NVIDIA 还发布了 GB200 Grace Blackwell 超级芯片。它结合了两个 NVIDIA B200 Tensor Core GPU 和一个NVIDIA Grace CPU超过 900GB/s 的超低功耗NVLink 芯片到芯片互连。

Grace Blackwell 超级芯片的芯片到芯片链路完全内存一致，从而创建了一个没有内存本地化的统一芯片。超级芯片采用 HBM3e 内存，提供高达 384 GB 的容量和 16 TB/s 的带宽，有助于快速处理数据。

它包含一个解压缩引擎和多媒体解码器，基于 72 个 ARM Neoverse V2 内核，具有各种缓存级别（L1、L2 和 L3 缓存），可优化数据检索速度。它集成了最新的 NVLink 5.0 和 PCIe Gen 6，支持高速数据传输。

Grace Blackwell 超级芯片专为可扩展性而设计，支持多实例 GPU 功能，并且封装方便服务器集成。TDP 可配置高达 2700 W，可根据计算需求进行能源管理。

在实际应用中，GB200 显著改善了数据库处理等计算任务，速度比传统 CPU 提高了 18 倍，从而降低了能耗和总拥有成本。它加速了对产品设计至关重要的基于物理的模拟，从而实现了经济高效的数字测试。对于 ASIC 设计（以 Cadence SpectreX 模拟器为例），它提供了 13 倍的速度提升。此外，在计算流体力学方面，GB200 将模拟速度提高了 22 倍，从而提高了工程和设计效率。

GB200 NVL72结合了 36 个 Grace CPU 和 72 个 Blackwell GPU。它是一个液冷式机架级 72-GPU NVLink 域，可以充当单个大型 GPU。它引入了尖端功能和第二代 Transformer Engine，可显著加速 LLM 推理工作负载，为资源密集型应用程序提供实时性能，例如万亿参数语言模型。

推理是生成式 AI 和 LLM 的关键方面之一。它指的是模型在经过训练后，根据收到的输入生成或预测新数据点（标记）的阶段。此过程称为“标记生成”。