高性能算力中心 — NVIDIA Cloud Native supercomputing

范桂飓

已于 2023-06-25 23:11:12 修改

阅读量2.2k

点赞数 1

文章标签：网络

于 2022-07-14 10:10:44 首次发布

本文链接：https://blog.csdn.net/Jmilk/article/details/125777957

版权

NVIDIA Quantum-2

NVIDIA Quantum-2 是新一代的 400Gbps InfiniBand 网络平台，为云计算服务提供商和超级计算中心提供极致的性能、广泛的接入能力及强大的安全性。

NVIDIA Quantum-2 平台包括：

NVIDIA Quantum-2 交换机
ConnectX-7 InfiniBand 网卡
BlueField-3 InfiniBand DPU
所有支持架构的软件

超级计算机和云原生超算系统要实现高性能，需要将所有的资源都参与到计算里面来。Quantum-2 的目标是实现数据在哪里，计算就在那里 —— 近网络计算技术（In-Network Computing）。

在这里插入图片描述

DPU offlaod

在这里插入图片描述

SHARP

SHARP（Scalable Hierarchical Aggregation and Reduction Protocol，可扩展分层次聚合和归约协议）是一种聚合通信（e.g. ML 梯度聚合、FL 模型聚合）网络卸载技术。

SHARPv1：在 Switch-IB2 EDR InfiniBand 上实现，最大支持 256Byte 聚合通信卸载。
SHARPv2：在 Quantum HDR InfiniBand 上实现，最大支持 2GByte 聚合通信卸载。

在各种 HPC 和 AI 场景中，常常存在多种聚合类通信协议，这些聚合类通信由于涉及全局网络，常常会对 Application 的并行效率产生巨大的影响。

业内研究了多种优化聚合类通信效率的软件方法，但依旧没有很好的解决必须要在全局网络中进行多次通信才能完成整体聚合操作，且很容易引入网络拥塞。经过多种方法优化后，聚合类通信的延迟仍然比点对点通信高一个数量级以上。

针对这种情况，NVIDIA Mellanox 从 EDR InfiniBand Switch 开始引入了 SHARP 技术，在交换机芯片中集成了计算引擎单元，可以支持 16bit、32bit 及 64bit 定点计算或浮点计算，可以支持求和、求最小值、求最大值、求与、求或及异或等计算，可以支持 Barrier、Reduce、All-Reduce 等操作。

SHARP 模型，支持在 Infiniband Switch 内部每个端口部署 RDMA 引擎，接收报文并还原数据，进行应用加速。最典型的应用就是 MPI 的聚合通信操作的卸载，对 ML 等算法加速有明显的优化。

在多交换机组成的机群环境下，Mellanox 定义了一整套 SHARP 卸载机制，由聚合管理器（Aggregation Manager）在物理拓扑中构造一个逻辑的 SHARP 树。由 SHARP 树中的多个交换机并行分布式处理聚合类通信操作。

当 Host 需要进行全局通信例（e.g. All reduce）时，所有的 Host 把通信数据提交到各自连接的 Switch。