英伟达让AI算力一步提升30倍？新架构超级GPU问世，详解技术细节！

最新推荐文章于 2024-08-14 22:29:49 发布

睿深渊

最新推荐文章于 2024-08-14 22:29:49 发布

阅读量913

点赞数 10

文章标签：人工智能架构

本文链接：https://blog.csdn.net/qq_45513049/article/details/139231475

版权

若有图片失效，可跳转至文末查看原文

新闻

「这才是我理想中的 GPU。」—— 黄仁勋。

2024年3月19日，凌晨四点，英伟达一年一度的 GTC 大会在加州圣何塞开场。

伴随着全场的欢呼声，老黄带着“这不是演唱会。你们是来参加开发者大会的！”走上台来。

因为近年来生成式 AI 技术爆发和英伟达市值的暴涨，算力市场大幅升温，硬件和软件方面的竞争愈加严重，然而英伟达带来的”惊喜“，仍然极大的拉高了AI 芯片的标杆。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

通用计算已经失去动力，现在我们需要更大的模型，我们需要更大的 GPU，更需要将 GPU 堆叠在一起。这不是为了降低成本，而是为了扩大规模。

黄仁勋提到，大模型参数量正在呈指数级增长，此前 OpenAI 最大的模型已经有 1.8T 参数，需要吞吐数十亿 token。即使是一块 PetaFLOP 级的 GPU，训练这样大的模型也需要 1000 年才能完成。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

此前 OpenAI 最大的模型已经有 1.8T 参数

黄仁勋略微有一些词穷，“这是块非常非常大的 GPU——Blackwell！ ”

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

技术架构

新型 AI 超级芯片

Blackwell 架构 GPU 具有 2080 亿个晶体管，采用专门定制的台积电 4NP 工艺制造。所有 Blackwell 产品均采用双倍光刻极限尺寸的裸片，通过 10 TB/s 的片间互联技术连接成一块统一的 GPU。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

第二代 Transformer 引擎

第二代 Transformer 引擎将定制的 Blackwell Tensor Core技术与 NVIDIA® TensorRT™ -LLM 和 NeMo™ 框架创新相结合，加速大语言模型 (LLM) 和专家混合模型 (MoE) 的推理和训练。Transformer 引擎由 Tensor Core 的 FP4 精度提供动力支持，可将性能和效率翻倍，同时为当前和新一代 MoE 模型保持高精度。

为了强效助力 MoE 模型的推理 Blackwell Tensor Core增加了新的精度 (包括新的社区定义的微缩放格式)，可提供较高的准确性并轻松替换更大的精度。Blackwell Transformer 引擎利用称为微张量缩放的细粒度缩放技术，优化性能和准确性，支持 4 位浮点 (FP4) AI。这将内存可以支持的新一代模型的性能和大小翻倍，同时保持高精度。

NVIDIA Generative AI Engine

安全的 AI

对于企业来说，LLM 具有巨大潜力。优化营收、提供业务见解以及帮助生成内容只是其一小部分用处。但对于需要基于私人数据训练 LLM 的企业来说，采用 LLM 可能会很困难，因为私人数据要么受到隐私法规的约束，要么包含一旦暴露就会带来风险的专有信息。Blackwell 内置 NVIDIA 机密计算技术，可通过基于硬件的强大安全性保护敏感数据和 AI 模型，使其免遭未经授权的访问。

NVIDIA Confidential Computing

NVLink、NVSwitch 和 NVLink Switch 系统

是否能释放百亿亿级计算和万亿参数 AI 模型的全部潜力取决于服务器集群中每个 GPU 之间能否快速、顺畅的通信。第五代 NVIDIA® NVLink® 是一种纵向扩展的互连，可为万亿和数万亿参数 AI 模型释放加速性能。

第四代 NVIDIA NVSwitch™ 可在一个含有 72 个 GPU 的 NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽，并通过 NVIDIA SHARP™ 技术对 FP8 的支持提供 4 倍于原来的带宽效率。使用 NVSwitch 后，NVIDIA NVLink 交换机系统能以惊人的 1.8TB/s 互连速度为多服务器集群提供支持。采用 NVLink 的多服务器集群可以在计算量增加的情况下同步扩展 GPU 通信，因此 NVL72 可支持的 GPU 吞吐量为单个 8-GPU 系统的 9 倍。

NVLink and NVLink Switch

解压缩引擎

过去，数据分析和数据库工作流依赖 CPU 进行计算。加速数据科学可以显着提高端到端分析性能，加速价值创造，同时降低成本。Apache Spark 等数据库在接手、处理和分析大量数据等数据分析工作上发挥着关键作用。

Blackwell 拥有的解压缩引擎以及通过 900GB/s 双向带宽的高速链路访问 NVIDIA Grace™ CPU]中大量内存的能力，可加速整个数据库查询工作流，从而在数据分析和数据科学方面实现更高性能。Blackwell 支持 LZ4、Snappy 和 Deflate 等最新压缩格式。此外，在查询基准测试中，它执行查询的速度是 CPU 的 20 倍，是 NVIDIA H100 Tensor Core GPU 的 7 倍。

NVIDIA Decompression Engine

可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的 Reliability，Availability，and Serviceability (RAS) Engine (可靠性、可用性和可维护性 (RAS) 引擎) 增加了智能恢复能力，以识别早期可能发生的潜在故障，从而更大限度地减少停机时间。NVIDIA AI 驱动的预测管理功能持续监控硬件和软件中数千个数据点的整体运行状况，以预测和拦截停机时间和低效的来源。这建立了智能可靠性技术，节省时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息，可以识别关注领域并制定维护计划。RAS 引擎通过快速定位问题来源缩短周转时间，并通过促进有效的补救最大限度地减少停机时间。

NVIDIA RAS Engine

原文链接：英伟达让AI算力一步提升30倍？新架构超级GPU问世，详解技术细节！

睿深渊

关注

10
点赞
踩
24

收藏

觉得还不错? 一键收藏
0
评论
英伟达让AI算力一步提升30倍？新架构超级GPU问世，详解技术细节！

这才是我理想中的 GPU。」—— 黄仁勋。2024年3月19日，凌晨四点，一年一度的在加州圣何塞开场。伴随着全场的欢呼声，老黄带着“这不是演唱会。你们是来参加开发者大会的！”走上台来。因为近年来生成式 AI 技术爆发和英伟达市值的暴涨，算力市场大幅升温，硬件和软件方面的竞争愈加严重，然而英伟达带来的”惊喜“，仍然极大的拉高了AI 芯片的标杆。通用计算已经失去动力，现在我们需要更大的模型，我们需要更大的 GPU，更需要将 GPU 堆叠在一起。这不是为了降低成本，而是为了扩大规模。
复制链接

扫一扫