NVIDIA 的 Blackwell 架构：解析 B100、B200 和 GB200

egekm_sefg

于 2024-12-30 22:45:53 发布

阅读量1.4k

点赞数 14

分类专栏：面试学习路线阿里巴巴文章标签：架构

本文链接：https://blog.csdn.net/egekm_sefg/article/details/144836009

版权

随着人工智能和机器学习领域继续以惊人的速度发展，NVIDIA 的最新创新——Blackwell 架构，将以无与伦比的并行计算能力重新定义AI和HPC。

NVIDIA 展示了一系列新技术，有望以前所未有的方式加速 AI 训练和推理。他们推出了 Blackwell GPU、GB200 Super Chip 和GB200 NVL72。每一个都代表着突破性的创新。

在本文中，我们将深入分析 NVIDIA 的 Blackwell 架构。它对于高性能计算意味着什么？它如何改进 Hopper 架构？然后，我们将逐一介绍每款新产品。

Blackwell vs Hopper

**Blackwell 架构以大卫·布莱克威尔命名，**受人尊敬的数学家和统计学家。布莱克威尔在博弈论和统计学方面的开创性工作和贡献在该领域留下了不可磨灭的印记，使他的名字成为数学科学创新和卓越的代名词。这一致敬反映了新平台的开创性和先进的计算能力。

NVIDIA 的 Blackwell 架构将拥有迄今为止最大的芯片，拥有 1040 亿个晶体管。Blackwell GPU（B100 和 B200）采用双芯片组设计，与 Hopper 相比有了重大飞跃。例如，B100 的晶体管数量比 H100 多 1280 亿个，AI 性能是 H100 的五倍。

NVIDIA 的 Blackwell GPU 包含 2080 亿个晶体管，采用定制的 TSMC 4NP 工艺制造。所有 Blackwell 产品都采用两个光罩限制芯片，通过每秒 10 兆兆字节 (TB/s) 连接芯片间互连在统一的单个 GPU 中。

Blackwell 架构通过以下方式提供更佳的性能：

FP8性能： Blackwell架构在FP8精度下提供20 PetaFLOPS（PFLOPS）的性能，是Hopper架构性能的2.5倍。
**FP6 性能：**与 FP8 一样，Blackwell 架构上的 FP6 性能也是 20 PFLOPS，比 Hopper 架构提高了 2.5 倍。
**FP4 性能：**这是一个重大飞跃，Blackwell 在新的 FP4 指标中提供了 40 PFLOPS，是 Hopper 性能的五倍。这表明它非常重视提高低精度计算的性能，这对于 AI 推理至关重要。
HBM 模型大小： NVIDIA 的 Blackwell 架构支持高达 7400 亿个参数的模型，这是 Hopper 架构所能管理的模型的六倍。这一大幅提升支持开发和运行更大、更复杂的 AI 模型。
HBM 带宽： Blackwell 上的高带宽内存 (HBM) 带宽为每参数秒 34 兆兆字节 (TB/s)，是 Hopper 上可用带宽的五倍。这允许更快的数据传输速率，从而显著提高计算性能。
采用 SHARP 技术的 NVLink All-Reduce： Blackwell 架构采用 SHARP 技术，提供 7.2 TB/s 的 NVLink all-reduce 功能，是 Hopper 架构功能的四倍。SHARP（可扩展分层聚合和缩减协议）增强了集体通信操作，这对于分布式 AI 和机器学习任务至关重要。