采用 NVIDIA DGX A100 系统和 Mellanox 频谱以太网交换机的 NetApp ONTAP AI NVA 设计（下）

最新推荐文章于 2024-07-24 15:50:36 发布

小信瑞

最新推荐文章于 2024-07-24 15:50:36 发布

阅读量1.2k

点赞数

分类专栏：网络存储数据存储数据安全文章标签：人工智能数据整合数据解决方案存储管理数据存储

原文链接：https://www.lenovonetapp.com/pdf/ONTAP-AI-nva-1153-design-CN.pdf

版权

数据存储同时被 3 个专栏收录

163 篇文章 2 订阅

订阅专栏

网络存储

156 篇文章 2 订阅

订阅专栏

数据安全

117 篇文章 1 订阅

订阅专栏

采用 NVIDIA DGX A100 系统和 Mellanox 频谱以太网交换机的 NetApp ONTAP AI NVA 设计（下）

解决方案架构
此架构经过验证，可满足运行深度学习工作负载的要求。有了这个验证结果，数据科学家可以在经过预先验证的基础架构上部署深度学习框架和应用程序，因此有助于消除风险，让企业集中精力从数据中获得有价值的洞察。此架构还可以为其他 HPC 工作负载提供出色的存储性能，而且无需对基础架构进行任何修改或调整。

网络拓扑结构和交换机配置
此参考架构利用单独的网络结构进行计算集群互连和存储访问。计算集群网络使用一对 SN3700V 以太网
交换机，这些交换机作为独立的冗余网络结构运行。每个 DGX A100 系统都使用八个 200 Gbps 单端口ConnectX-6 卡连接到交换机，其中偶数端口连接到一个交换机，奇数端口连接到另一个交换机。为RoCE 配置了计算网络结构交换机，以便为 GPU 到 GPU 通信提供尽可能低的延迟。
另外，还使用两个 SN3700V 交换机来提供 NFS 存储连接以及对 DGX A100 系统的带内管理和客户端访
问。这些 SN3700V 交换机配置了多机箱链路聚合（MLAG），以便在交换机发生故障时能够聚合带宽并
进行透明故障转移。为以太网配置的两个双端口 ConnectX-6 卡用于从每个 DGX A100 系统向每个SN3700V 交换机提供两个端口。每个卡的一个端口配置为专用于存储访问的绑定，每个卡上的另一个端
口配置为绑定，用于带内管理和客户端访问。每个 AFF A800 存储系统都使用每个控制器的四个 100GbE
端口进行连接，并与每个交换机建立一个双端口 LACP 绑定，以便在存储控制器之间平衡工作负载分布。
图 4 显示了整体网络拓扑。
在这里插入图片描述
以太网网络配置有多个 VLAN，用于隔离特定流量类型。NFS 存储流量，带内管理和客户端访问均具
有专用 VLAN，可为每种流量类型提供适当的最大传输单元（Maximum Transmission Unit，MTU）
和其他设置。例如，NFS 存储流量需要 MTU 9000，而其他典型以太网流量则使用 MTU 1500。
14 采用 NVIDIA DGX A100 系统的 NetApp ONTAP AI © 2020 NetApp, Inc.。保留所有权利。
图 5 显示了主机和存储系统控制器的 VLAN 连接。请注意，AFF A800 存储系统控制器具有单独的
1GbE 管理接口，这些接口插入到单独的管理交换机中。
在这里插入图片描述
存储系统配置
为了满足此架构中任何潜在工作负载的存储网络需求，除了存储集群互连所需的板载端口外，每个存储控
制器还配置了四个 100GbE 端口。图 6 显示了存储系统配置。在每个控制器上为每个交换机配置了一个双
端口 LACP 接口组（图 6 中的 ifgrp）。这些接口组可提供与每个交换机高达 200 Gb/秒的弹性连接以用于
数据访问。为 NFS 存储访问配置了两个 VLAN，两个存储 VLAN 都从交换机中继到这些接口组中的每个接
口组。这种配置支持通过多个接口从每个主机并发访问数据，这样可增加可用于每个主机的潜在带宽。

从存储系统进行的所有数据访问均通过从专用于此工作负载的 Storage Virtual Machine (SVM) 的 NFS 访
问提供。该 SVM 配置了总共四个逻辑接口 (LIF)，其中每个存储 VLAN 上两个 LIF。每个接口组托管一个
LIF，这样即是每个控制器上的每个 VLAN 一个 LIF，每个 VLAN 一个专用接口组。不过，两个 VLAN 均
被中继到每个控制器上的两个接口组。此配置支持每个 LIF 故障转移到同一个控制器上的另一个接口组，
这样两个控制器在发生网络故障时均可保持活动状态。在这里插入图片描述
对于逻辑存储配置，此解决方案使用 FlexGroup 卷提供一个单一的存储池，该存储池分布在存储集群中的
各节点上。每个控制器均托管一个含 46 个磁盘分区的聚合，每个磁盘由两个控制器共享。在数据 SVM 上
部署 FlexGroup 时，便会在每个聚合上配置许多 FlexVol 卷，这些卷再结合成为 FlexGroup。通过这种方
式，存储系统可提供单一存储池，其容量最高可扩展到阵列的最大容量，而且可通过同时利用阵列中的所
有 SSD 提供出色的性能。NFS 客户端可通过为该 SVM 配置的任何 LIF 访问作为单个挂载点的
FlexGroup。您只需在存储集群中添加更多节点即可增加容量和客户端访问带宽。请注意，要使控制器或
FlexGroup 卷达到全部性能，不需要多个 IP 地址，但它们可以更好地在网络中实现哈希和负载分布。

主机配置
对于网络连接，每个 DGX A100 系统都配置有八个用于计算集群连接的 ConnectX-6 单端口网络接口卡
和两个用于存储和客户端访问连接的 ConnectX-6 双端口卡。对于 InfiniBand 和以太网，这些卡支持高达
200 GB 的链路速度。在此参考架构中，为 200 GB RoCE 配置了八个单端口卡，并将其连接到一对
SN3700V 交换机，以实现计算集群连接。双端口卡上的端口连接到另一对 SN3700V 交换机，用于存储
和客户端网络连接。图 7 显示了 DGX A100 系统的网络端口和 VLAN 配置。

在这里插入图片描述

对于以太网存储网络，主机端和交换机端的两个物理端口分别配置为 LACP 端口通道和 MLAG。另外两
个端口配置为另一个 LACP 绑定，用于带内管理和客户端访问流量。由于 AFF A800 存储系统具有高性能
功能，因此在此测试中已禁用主机端 NFS 文件系统缓存。

DGX OS 4.99 及更高版本使用 Linux 5.3 内核，其中包括 NFS nConnect 功能，可显著提高 NFSv3 存储
性能。通过 nConnect，一个 NFS 挂载可以利用多个 TCP 会话来增加可用带宽，从而可能达到最大线
速。此架构已通过 nConnect 的验证，可简化主机配置，同时提供与先前多个挂载配置相当的性能。下面
列出了此测试中使用的特定主机端挂载参数：
• nConnect=8。为每个挂载的卷创建八个 TCP 会话以提高整体性能。
• rsize=262144，wsize=262144。将最大读写传输大小设置为 256k。ONTAP 支持高达 1 MB 的
NFS 传输大小，但测试表明，256 K 可以以最低延迟提供最大吞吐量。

解决方案验证
此参考架构已通过综合基准实用程序和深度学习基准测试进行验证，以确定系统的基线性能和操作。本
节所述的每个测试都使用技术要求中列出的特定设备和软件执行。

基础架构验证
我们对一个，两个和四个 DGX A100 系统执行了以下测试，以验证所部署基础架构的基本操作和
性能：
• NVIDIA nvsm 压力测试。此测试套件可对许多重要的 DGX A100 系统执行通过 / 未通过验证。所有
系统都应报告此组中的测试的通过状态。
• NVIDIA NCCL all_reduce 性能
• FiO 带宽测试
• 每秒 FIO I/O 操作数（IOPS）测试
• 以下各节介绍了每个测试的详细信息和结果。
NVIDIA NCCL all_reduce 性能测试
此测试将验证 GPU 之间互连的性能。对于单节点系统，瓶颈应是 GPU 之间的 NVIDIA NVLink 连接。
对于多节点系统，瓶颈应是 DGX A100 系统之间的以太网或 InfiniBand 连接。此测试使用所有八个可
用物理连接测量系统之间的总带宽。
图 8 显示了 NCCL all_reduce 性能测试的结果。
在这里插入图片描述
FiO 带宽和 IOPS 测试
这些测试旨在使用合成 I/O 生成器工具 FIO 测量存储系统性能。我们使用了两种单独的配置，一种经过
优化可提供最大带宽，另一种经过优化可实现 IOPS。每个配置都在运行时同时执行 100% 读取和 100%
写入，并创建 FIO 使用的文件作为一个单独的步骤，以便将这些活动与实际测试结果隔离开来。以下是
这些测试的特定 FIO 配置参数：
• IOEngine = posixaio
• 直接 = 1
• 块大小 = 1024 k 用于带宽测试，4 k 用于 IOPS 测试
• numjobs = 120 用于带宽测试，180 用于 IOPS 测试
• iodepth = 32
• 大小 = 4194304k
利用这些测试中使用的工作负载参数，可以使用三个 DGX A100 系统使每个存储控制器饱和。图 9 显示
了对多达八个 DGX A100 系统进行 FIO 带宽测试的结果。在此配置中，每个控制器上挂载四个主机，因
此性能会线性扩展，直到第四个主机上的三个主机和平台达到单控制器最大约 22 GBps。接下来的四个
主机将挂载到 HA 对中的第二个控制器上，并且对于这两个控制器，其行为相似，但最大不超过 45
GBps。
在这里插入图片描述
图 10 显示了 FIO IOPS 测试的结果。

深度学习工作负载验证
已使用 MLPerf Training v0.7 RESNET-50 基准测试验证了深度学习工作负载在已部署基础架构上的运行
情况。此测试使用 MLPerf v0.7 测试标准验证使用 RESNET-50 模型的系统的性能，并使用在 MLPerf
v0.7 测试规范中指定的参数和数据集。
下一节介绍了此测试的具体详细信息和结果。

MLPerf 培训 v0.7 RESNET-50
此参考架构使用 MLPerf Training v0.7 基准测试，用于验证已部署基础架构上的深度学习工作负载的运行情况。MLPerf 是对各种神经网络的行业标准基准实施，用于验证深度学习基础架构的性能。此测试使用了采用 RESNET-50 的 MXNet 实施以及采用 IORecord 格式的 ImageNet 数据集来验证模型训练性能。
Dali 用于加快数据的载入和预处理速度，Horovod 用于在多个 DGX A100 系统之间分发培训。随着工作负载的扩展（扩展能力较弱），显示的结果会使每个系统的批处理大小保持一致，即 408 个映像。
用于这些测试的基本容器映像是 NGC 中的 20.06 MXNet 映像。MLPerf 基准测试有意不针对任何特定硬件实施进行优化，因此，可以通过调整并发性等参数来提高这些测试中的整体系统性能。
图 11 显示了训练运行持续时间为 45 个时长的每秒平均图像数。
在这里插入图片描述
解决方案规模估算指导
此架构旨在供意欲采用 NVIDIA DGX-1 服务器和 NetApp AFF 系统实施高性能计算 (HPC) 基础架构的客户
及合作伙伴作为参考。

如此验证所示，AFF A800 系统可轻松支持由八个 DGX A100 系统生成的深度学习培训工作负载。对于具
有更高存储性能需求的更大规模部署，则可以在 NetApp ONTAP 集群中增加更多 AFF A800 系统。
ONTAP 9 在一个集群中最多支持 12 个 HA 对（24 个节点）。借助此解决方案中验证的 FlexGroup 技术，一个 24 节点集群可以在一个卷中提供 20 PB 以上的吞吐量，并可提供高达 300 Gbps 的吞吐量。
虽然此验证中使用的数据集相对较小，但 ONTAP 9 可以通过线性性能可扩展性扩展到令人惊叹的容
量，因为每个 HA 对的性能均可与本文档中验证的级别相当。
AFF A400 等其他 NetApp 存储系统可为较小的部署提供较低的性能和容量选项，并且成本较低。根据此测
试的结果，AFF A400 存储系统可以支持一个或两个 DGX A100 系统以及所测试的工作负载。由于
ONTAP 9 支持混合模式集群，因此您可以从更小占用空间起步，然后随着您的容量和性能需求的增长在集
群中添加更多或更大的存储系统。
21 采用 NVIDIA DGX A100 系统的 NetApp ONTAP AI © 2020 NetApp, Inc.。保留所有权利。

结论
DGX A100 系统是下一代深度学习平台，需要同样高级的存储和数据管理功能。通过将 DGX A100 与
NetApp AFF 系统相结合，可以几乎任意规模地实施这一经过验证的架构，从与 AFF A400 存储系统配
对的单个 DGX A100 到 12 节点 AFF A800 集群上可能有 48 个 DGX A100 系统。AFF 与 NetApp
ONTAP 的卓越云集成功能以及软件定义的功能相结合，可为成功实施深度学习项目提供跨边缘、核心
和云的完整数据管道。

声明
作者对我们尊敬的 NVIDIA 和 NetApp 同事为本技术报告所做的贡献表示感谢。我们要对以自己的真
知灼见为本白皮书的研究带来巨大帮助的所有人士表示真诚的赞赏和谢意。