“你所看到的一切的基础是两项基本技术,加速计算和在宇宙中运行的人工智能。”6月2日晚7点,英伟达 CEO 黄仁勋在 Computex 2024 开幕前带来现场主题演讲《揭开新工业革命序幕》。
在这场不到2小时的演讲中,黄仁勋承接 GTC 2024 的科技成果,官宣了最新的芯片计划,并带来了芯片设备、数字孪生技术,以及机器人的最新构想及产业应用突破。
“这是我们第一次举办夜间演讲,这些是早间演讲中做不来的。”黄仁勋的多个重磅推出和精彩的demo演示把台大体育馆现场氛围拉满。
英伟达新架构Blackwell宣布不过3个月,老黄又带来了重磅消息。
老黄表示,Blackwell芯片现已开始投产。他还表示,英伟达计划每年升级其 AI 加速器,在最新的芯片规划中:
2025 年推出 Blackwell Ultra 芯片;
2026 年推出使用 HBM4 内存的 Blackwell 继任者 Rubin 芯片;
2027年推出 Rubin Ultra,新一代基于 Arm 的 Vera CPU,以及 NVLink 6 Switch(3600GB/s)。
后续芯片计划中的Rubin 和 Vera 的命名均源自美国天文学家 Vera Rubin,她是研究暗物质先驱。
“我在这里向你们展示的所有这些芯片都在完全开发中,百分之百。" 英伟达创始人兼 CEO 黄仁勋说,英伟达的更新节奏以年为单位,所有架构都是兼容的," 以一年为周期,我们把所有东西推向技术极限。”
到这一代Blackwell为止,英伟达已经把AI模型有效扩展到万亿参数。同时,老黄还给token定了个中文译名“词元”。
这次的主角依旧是 Blackwell。
老黄在现场展示了 Blackwell 芯片主板,称这是“世界上最复杂、性能最高的计算机”。
越大越节能,秒杀摩尔定律
8 年 AI 算力涨 1000 倍,能耗降到 1/350,老黄和他的Blackwell 正在秒杀摩尔定律。
黄仁勋介绍道,8 年内英伟达 AI 算力增加了 1000 倍,能以更低成本去训练大模型。举例来说,训练 1.8 万亿参数、8 万亿 token 的 GPT-4,所需能耗从 8 年前 Pascal 架构的 1000GWh 减少到 Blackwell 的 3GWh,也就是说将能耗足足降至 8 年前的 1/350。
此外,Blackwell 将生成 token 的能耗降至 8 年前的 1/45000。以前用 Pascal 产生 1 token 的能耗相当于 2 个 200W 灯泡运行 2 天,让 GPT-4 生成一个单词大约需要 3 个 token。现在 1 token 只用 0.4J 能耗。
不止于此,老黄表示,必须制造更大的机器,英伟达构建它的方式是风冷 DGX 和液冷 MGX。
其中 DGX 的 AI 算力提升到上一代的 45 倍,达到 1440PFLOPS,而能耗仅为上一代的 10 倍。新一代 DGX 能搭载 72 个 GPU,背后由 NVLink 5000 根电缆组成的主干支持,能为一个机架节省 20kW 电能。
MGX系统的核心在于两块Blackwell芯片,每个节点都集成了四个Blackwell芯片,这样的节点共有九个,共计72个GPU,这些GPU通过NV链接技术紧密相连,使得每个Blackwell芯片高效连接,构成巨大的72 GPU集群。相较于上一代的8个GPU,其性能提升了9倍,带宽增加了18倍,每秒浮点运算次数提升了45倍,功率仅增加了10倍。这样的系统能提供100千瓦的强劲动力,而上一代仅为10千瓦。
————————————————
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/139429168