NVIDIA Blackwell Architecture

在这里插入图片描述

本文翻译自:NVIDIA Blackwell Architecture
https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/



其他 资料



Blackwell 以几代NVIDIA 技术为基础,以无与伦比的性能、效率和规模开创了生成式 AI 的新篇章。


了解技术突破

NVIDIA Blackwell 架构集成 2080 亿个晶体管


1、新型人工智能超级芯片

Blackwell 架构 GPU 集成了 2080 亿个晶体管,采用定制的 TSMC 4NP 工艺制造。

所有 Blackwell 产品都采用两个光罩限制芯片,通过每秒 10 兆兆字节 (TB/s) 的芯片间互连连接,形成一个统一的 GPU。


2、第二代 Transformer 引擎

第二代 Transformer Engine 采用定制的Blackwell Tensor Core技术结合 NVIDIA® TensorRT™-LLM 和 NeMo™ Framework 创新,加速大型语言模型 (LLM) 和混合专家 (MoE) 模型的推理和训练。

为了增强 MoE 模型的推理能力,Blackwell Tensor Cores增加了新的精度,包括新的社区定义的微缩放格式,从而提供高精度,并易于替换更高的精度。

Blackwell Transformer Engine 利用称为微张量缩放的 细粒度缩放技术 来优化性能和精度,从而实现 4 位浮点 (FP4) AI。这使内存可以支持的下一代模型的性能和大小翻了一番,同时保持了高精度。

NVIDIA 生成式 AI 引擎


3、Secure AI

Blackwell 包含 NVIDIA Confidential Computing,它通过强大的硬件安全性 保护敏感数据和 AI 模型 免遭未经授权的访问。

Blackwell 是业内首款支持 TEE-I/O 的 GPU,同时通过支持 TEE-I/O 的主机 和 通过 NVIDIA® NVLink® 提供的内联保护 提供性能最高的机密计算解决方案。

与未加密模式相比,Blackwell 机密计算可提供几乎相同的吞吐量性能。企业现在可以以高性能的方式保护最大的模型,此外还可以保护 AI 知识产权 (IP) 并安全地实现机密 AI 训练、推理和联合学习。

了解有关 NVIDIA 机密计算:https://www.nvidia.com/en-us/data-center/solutions/confidential-computing/

 NVIDIA Confidential Computing


4、NVLink 和 NVLink 交换机

充分发挥百亿亿次计算和万亿参数 AI 模型的潜力 取决于服务器集群中每个 GPU 之间快速、无缝的通信需求。

第五代 NVIDIA® NVLink® 互连可扩展至 576 个 GPU,为万亿和数万亿参数 AI 模型释放加速性能。

NVIDIA NVLink 交换芯片在一个 72-GPU NVLink 域 (NVL72) 中实现 130TB/s 的 GPU 带宽,并通过 NVIDIA 可扩展分层聚合和缩减协议 (SHARP)™ FP8 支持提供 4 倍带宽效率。

NVIDIA NVLink 交换芯片以同样惊人的 1.8TB/s 互连速度支持超过单台服务器的集群。

具有 NVLink 的多服务器集群可以平衡 GPU 通信与增加的计算,因此 NVL72 可以支持比单个八 GPU 系统高 9 倍的 GPU 吞吐量。

了解有关 NVIDIA NVLink 和 NVLink Switch 的更多信息

NVLink 和 NVLink 交换机


5、解压缩引擎

数据分析和数据库工作流传统上依赖 CPU 进行计算。加速数据科学可以显著提高端到端分析的性能,加快价值生成速度并降低成本。

数据库(包括 Apache Spark)在处理、处理和分析大量数据分析数据方面发挥着关键作用。

Blackwell 的解压缩引擎以及通过高速链路(900 千兆字节每秒 (GB/s) 的双向带宽)访问NVIDIA Grace™ CPU中海量内存的能力,加速了整个数据库查询流程,以实现数据分析和数据科学的最高性能,同时支持最新的压缩格式,例如 LZ4、Snappy 和 Deflate。

NVIDIA 解压缩引擎


6、可靠性、可用性和可服务性 (RAS) 引擎

Blackwell 通过专用的可靠性、可用性和可服务性 (RAS) 引擎增加了智能弹性,可及早识别可能发生的潜在故障,从而最大限度地减少停机时间。

NVIDIA 的 AI 驱动预测管理功能可持续监控硬件和软件中的数千个数据点,以了解整体健康状况,从而预测和拦截停机和低效率的根源。这建立了智能弹性,从而节省了时间、能源和计算成本。

NVIDIA 的 RAS 引擎提供深入的诊断信息,可识别问题区域并制定维护计划。

RAS 引擎通过快速定位问题源来缩短周转时间,并通过促进有效的补救措施来最大限度地减少停机时间。

NVIDIA RAS 引擎


GB200 NVL72

使用 NVIDIA GB200 NVL72 解锁实时万亿参数模型

格雷斯·布莱克韦尔 NVL72

NVIDIA GB200 NVL72 采用机架级设计,连接 36 个 GB200 Grace Blackwell 超级芯片、36 个 Grace CPU 和 72 个 Blackwell GPU。

GB200 NVL72 是一种液冷解决方案,具有 72 个 GPU NVLink 域,可充当单个大型 GPU,为万亿参数大型语言模型提供 30 倍更快的实时推理速度。

了解有关 NVIDIA GB200 NVL72 的更多信息:https://www.nvidia.com/en-us/data-center/gb200-nvl72/


2024-05-27(一)

内容概要:本文档详细介绍了在三台CentOS 7服务器(IP地址分别为192.168.0.157、192.168.0.158和192.168.0.159)上安装和配置Hadoop、Flink及其他大数据组件(如Hive、MySQL、Sqoop、Kafka、Zookeeper、HBase、Spark、Scala)的具体步骤。首先,文档说明了环境准备,包括配置主机名映射、SSH免密登录、JDK安装等。接着,详细描述了Hadoop集群的安装配置,包括SSH免密登录、JDK配置、Hadoop环境变量设置、HDFS和YARN配置文件修改、集群启动与测试。随后,依次介绍了MySQL、Hive、Sqoop、Kafka、Zookeeper、HBase、Spark、Scala和Flink的安装配置过程,包括解压、环境变量配置、配置文件修改、服务启动等关键步骤。最后,文档提供了每个组件的基本测试方法,确保安装成功。 适合人群:具备一定Linux基础和大数据组件基础知识的运维人员、大数据开发工程师以及系统管理员。 使用场景及目标:①为大数据平台搭建提供详细的安装指南,确保各组件能够顺利安装和配置;②帮助技术人员快速掌握Hadoop、Flink等大数据组件的安装与配置,提升工作效率;③适用于企业级大数据平台的搭建与维护,确保集群稳定运行。 其他说明:本文档不仅提供了详细的安装步骤,还涵盖了常见的配置项解释和故障排查建议。建议读者在安装过程中仔细阅读每一步骤,并根据实际情况调整配置参数。此外,文档中的命令和配置文件路径均为示例,实际操作时需根据具体环境进行适当修改。
在无线通信领域,天线阵列设计对于信号传播方向和覆盖范围的优化至关重要。本题要求设计一个广播电台的天线布局,形成特定的水平面波瓣图,即在东北方向实现最大辐射强度,在正东到正北的90°范围内辐射衰减最小且无零点;而在其余270°范围内允许出现零点,且正西和西南方向必须为零。为此,设计了一个由4个铅垂铁塔组成的阵列,各铁塔上的电流幅度相等,相位关系可自由调整,几何布置和间距不受限制。设计过程如下: 第一步:构建初级波瓣图 选取南北方向上的两个点源,间距为0.2λ(λ为电磁波波长),形成一个端射阵。通过调整相位差,使正南方向的辐射为零,计算得到初始相位差δ=252°。为了满足西南方向零辐射的要求,整体相位再偏移45°,得到初级波瓣图的表达式为E1=cos(36°cos(φ+45°)+126°)。 第二步:构建次级波瓣图 再选取一个点源位于正北方向,另一个点源位于西南方向,间距为0.4λ。调整相位差使西南方向的辐射为零,计算得到相位差δ=280°。同样整体偏移45°,得到次级波瓣图的表达式为E2=cos(72°cos(φ+45°)+140°)。 最终组合: 将初级波瓣图E1和次级波瓣图E2相乘,得到总阵的波瓣图E=E1×E2=cos(36°cos(φ+45°)+126°)×cos(72°cos(φ+45°)+140°)。通过编程实现计算并绘制波瓣图,可以看到三个阶段的波瓣图分别对应初级波瓣、次级波瓣和总波瓣,最终得到满足广播电台需求的总波瓣图。实验代码使用MATLAB编写,利用polar函数在极坐标下绘制波瓣图,并通过subplot分块显示不同阶段的波瓣图。这种设计方法体现了天线阵列设计的基本原理,即通过调整天线间的相对位置和相位关系,控制电磁波的辐射方向和强度,以满足特定的覆盖需求。这种设计在雷达、卫星通信和移动通信基站等无线通信系统中得到了广泛应用。
### Blackwell 架构概述 Blackwell 架构是英伟达最新一代 GPU 架构,旨在纪念首位入选美国国家科学院的黑人学者、数学家和博弈论学家 David Harold Blackwell。该架构继承了 Hopper GPU 架构的优点,并进一步提升了性能和功能[^1]。 ### 技术细节 #### 制造工艺与晶体管数量 Blackwell 架构采用了专门定制的双倍光刻极限尺寸 4NP TSMC 工艺制造,拥有高达 2080 亿个晶体管。这种先进的制程技术不仅提高了晶体管密度,还显著降低了功耗,使得每瓦特性能得到了极大提升[^2]。 #### 片间互联技术 为了增强数据传输速度并减少延迟,Blackwell 架构引入了 10TB/s 的片间互联带宽,能够高效地将多个 GPU 裸片连接成单一逻辑单元。这一特性对于大规模分布式计算任务尤为重要,可以大幅提高系统的整体吞吐量和响应时间。 ```python # 示例代码展示如何配置多GPU间的通信参数 import nvidia.smi as nvsmi def configure_interconnect(bandwidth=10e12): # 设置默认带宽为10 TB/s try: handle = nvsmi.nvmlDeviceGetHandleByIndex(0) nvsmi.setInterConnectBandwidth(handle, bandwidth) print(f"成功设置片间互联带宽至 {bandwidth / (10**12)} TB/s") except Exception as e: print(e) configure_interconnect() ``` #### Superchip 设计 基于 Blackwell 架构,NVIDIA 推出了 GB200 Grace Blackwell 超级芯片。这款超级芯片通过 900GB/s 的超低功耗片间互联,集成了两个 B200 Tensor Core GPU 和一个 NVIDIA Grace CPU。这使得 GB200 成为处理复杂 AI 计算的理想选择之一。 #### 扩展系统 针对高度计算密集型工作负载的需求,NVIDIA 开发了 GB200 NVL72——一个多节点液冷机架级扩展系统。此系统由 36 个 Grace Blackwell 超级芯片组成,总共包含 72 个 Blackwell GPU 和 36 个 Grace CPU,全部通过第五代 NVLink 进行高速互连。 ### 发布计划与发展路线图 按照官方规划,配备 Blackwell 架构的产品预计于今年晚些时候正式发售。与此同时,英伟达公布了未来三年的技术演进路径:将在 2025 年推出 Blackwell Ultra,在 2026 年发布 Rubin 架构,并在 2027 年带来 Rubin Ultra 架构升级版[^3]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程乐园

请我喝杯伯爵奶茶~!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值