NVIDIA H100 Tensor Core GPU的特性概括如下:
-
先进的制造工艺与规模:H100基于NVIDIA Hopper架构,采用台积电定制的4N工艺,集成高达800亿个晶体管,是目前世界上最为先进的芯片。
-
性能飞跃:针对大规模人工智能(AI)和高性能计算(HPC)应用,H100相较于上一代A100 Tensor Core GPU实现了数量级的性能提升。在主流AI和HPC模型中,配合InfiniBand互连技术,H100可提供最高达A100 30倍的性能。
-
新一代流式多处理器(SM):H100包含全新设计的SM,带来众多性能和效率改进。第四代Tensor Cores相比A100在芯片间通信速度上快至6倍,每个SM的基础矩阵乘积累(MMA)运算速率在相同数据类型下是A100的两倍,并且通过支持新的FP8数据类型,其速率是A100的四倍,同时利用细粒度结构稀疏性进一步提升深度学习网络的性能。
-
高效的数据传输:H100配备了增强的NVLink Switch System互连技术,针对需要跨多个GPU加速节点的模型并行性的大型和复杂计算工作负载,可以实现再次的性能飞跃,在某些情况下性能提升可达三倍。
-
Grace Hopper Superchip集成:H100将作为NVIDIA Grace Hopper Superchip的一部分,与NVIDIA Grace CPU搭配,专为太字节级别的加速计算设计,针对大型模型的AI和HPC提供比现有系统高10倍的性能。Grace与H100之间通过超高速的片间互连,提供900GB/s的带宽,比PCIe Gen5快7倍,为处理大规模数据的应用程序提供最高30倍的聚合带宽提升和最高10倍的性能提升。
综上所述,NVIDIA H100不仅在硬件架构上实现了显著优化和创新,还在数据传输速度、计算效率以及与下一代CPU集成方面展现了革命性的进步,特别适合于驱动要求极高的AI训练、推理、HPC以及数据分析应用。
H100 GPU的特性包括:
-
DPX指令集:加速动态规划算法,相比A100 GPU在某些应用中(如基因组处理的Smith-Waterman算法和动态仓库环境中寻找最优机器人路径的Floyd-Warshall算法)速度提升至多7倍。
-
更高的FP64与FP32处理性能:相比A100,H100提供了2倍的每流处理器时钟频率性能、更多的流处理器数量以及更高的时钟频率,使得芯片间的数据处理速率快3倍。
-
线程块集群功能:扩展了CUDA编程模型,允许在单个流式多处理器上对局部性进行比单个线程块更粗粒度的程序控制,新增了线程块集群这一编程层级。
-
异步执行特性:引入了Tensor Memory Accelerator (TMA)单元,高效地在全局内存和共享内存之间传输大量数据,并支持线程块集群内的异步数据复制。还新增了异步事务屏障以实现原子数据移动和同步。
-
Transformer Engine:结合软件和定制的Hopper张量核心技术,专门加速Transformer模型的训练和推理。自动管理FP8和16位计算的选择与转换,提供至多9倍的AI训练加速和30倍的大型语言模型推理速度提升。
-
HBM3内存子系统:相比前代,带宽接近翻倍,H100 SXM5是全球首款配备HBM3内存的GPU,提供3TB/秒的顶级内存带宽。
-
50MB二级缓存:缓存大量模型和数据集以减少对HBM3的访问,提高重复访问效率。
-
第二代多实例GPU (MIG):相比A100,提供约3倍的计算容量和近2倍的每GPU实例内存带宽。首次提供MIG级别的可信执行环境(TEE)以支持保密计算,最多支持7个独立GPU实例,每个实例配备NVDEC和NVJPG单元及性能监控工具。
-
保密计算支持:保护用户数据,防御硬件和软件攻击,增强虚拟化和MIG环境下VM之间的隔离与保护,实现世界上首个原生保密计算GPU。
-
第四代NVIDIA NVLink:所有reduce操作的带宽增加3倍,一般带宽相比上一代提升50%,总带宽达到900GB/秒,是PCIe Gen 5的7倍。
-
第三代NVSwitch技术:内部和外部的交换机连接服务器、集群和数据中心环境中的多个GPU,提供更快的多GPU连接。单节点内NVSwitch提供的第四代NVLink链接端口增至64个,总吞吐量提升至13.6Tbits/sec。
-
NVLink交换系统:基于第三代NVSwitch技术的新第二层交换机引入地址空间隔离和保护,最多可连接32个节点或256个GPU,形成2:1锥形胖树拓扑,提供57TB/秒的全互联带宽,实现1艾(Exa)FLOP的FP8稀疏AI计算。
-
PCIe Gen 5:提供128GB/秒的总带宽(每方向64GB/秒),相比Gen 4的64GB/秒总带宽(每方向32GB/秒),使H100能够与高性能x86 CPU和SmartNIC/DPU高效接口。
-
其他新特性:优化强扩展性、降低延迟和开销,简化GPU编程。
H100 GPU在深度学习、数据分析、高性能计算等多个领域显著提升数据中心的性能,支持现代工作负载的端到端加速,为企业的基础设施提供强大支持。
H100 相关特性概括如下:
-
H100 SXM5 GPU:
- 使用定制的 SXM5 板,集成 H100 GPU 和 HBM3 内存。
- 支持第四代 NVLink 和 PCIe Gen 连接,提供最高应用性能。
- 适用于多GPU服务器扩展,可通过4-GPU或8-GPU配置的HGX H100服务器板获取。
- 4-GPU配置有点对点NVLink连接,提高CPU到GPU的比例;8-GPU配置使用NVSwitch实现SHARP网络缩减和每对GPU间900GB/s的全NVLink带宽。
- 应用于强大的新DGX H100服务器和DG SuperPOD系统。
-
H100 PCIe Gen 5:
- 在350瓦的热设计功率(TDP)下提供与H100 SXM5相同的性能。
- 可选配NVLink桥接器,连接两块GPU,带宽达600GB/s,接近