采用 NVIDIA DGX A100 系统和 Mellanox 频谱以太网交换机的 NetApp ONTAP AI NVA 设计(中)
NetApp AFF 系统
借助 NetApp AFF 一流的存储系统,IT 部门可以通过行业领先的性能,卓越的灵活性,云集成和一流的
数据管理功能满足企业级存储需求。AFF 系统专为闪存设计,有助于加速、管理和保护业务关键型数据。
NetApp AFF A800 系统是行业首款端到端 NVMe 解决方案。对于 NAS 工作负载而言,一个 AFF A800
系统支持吞吐量为 25 GB/秒的顺序读取和 100 万次 IOPS 的小型随机读取,同时保持低于 500 微秒的延迟。
AFF A800 系统支持以下功能:
• 在包含 24 个节点的集群中实现最高 300 GB/秒的巨大吞吐量和 1140 万次 IOPS
• 100GbE 和 32 Gb FC 连接
• 最多 30 TB 固态驱动器(SSD),具有多流写入功能
• 在 2U 驱动器架中实现 2 PB 的高密度容量
• 从 200 TB(2 个控制器)扩展到 9.6 PB(24 个控制器)
• NetApp ONTAP 9.4,具有一整套数据保护和复制功能,可提供行业领先的数据管理其他 NetApp 存储系统(例如 AFF A700,AFF A400 和 AFF A220)以较低的成本为较小的部署提供了较低的性能和容量选项。
NetApp ONTAP 9
ONTAP 9 是 NetApp 推出的最新一代存储管理软件,可帮助您打造现代化基础架构并向云就绪数据中心
过渡。ONTAP 利用行业领先的数据管理功能,通过一套工具来管理和保护数据,而无论数据位于何处。
还可以自由地将数据迁移到任何需要的地方,无论是边缘、核心还是云端。ONTAP 9 包含许多功能,不
仅可以跨不同混合云架构简化数据管理,加速提供并保护关键数据,而且能帮助打造适应未来需求的基
础架构。
简化数据管理
数据管理对于企业 IT 运营至关重要,通过得当的管理才能将适当的资源用于应用程序和数据集。
ONTAP 具有以下功能,可简化操作并降低总运营成本:
• 实时数据缩减和扩展的重复数据删除。数据压缩为 ML/DL 工作负载中经常使用的字母数字数据带来了主要优势。数据缩减可减少存储块内的空间浪费,而重复数据删除可大幅提升有效容量。
• 最低、最高和自适应服务质量 (QoS)。精细的 QoS 控制有助于在高度共享的环境中保持关键应用程序的性能水平,并允许生产和开发部门共享基础架构,同时保证资源分配。
• ONTAP FabricPool。此功能支持将冷数据自动分层到公共云和私有云存储中,其中包括 Amazon Web Services (AWS)、Azure 和 NetApp StorageGRID® 解决方案。
加快数据访问速度并提供数据保护
ONTAP 可提供卓越的性能和数据保护,而且可通过以下方式扩展这些功能:
• 高性能和低延迟。ONTAP 尽可能以最低的延迟提供最高的吞吐量。
• 数据保护。ONTAP 提供适用于所有平台的内置数据保护功能和通用管理功能。
• NetApp 卷加密。ONTAP 提供同时支持板载和外部密钥管理的本机卷级加密。
• 多租户和多因素身份验证。ONTAP 支持以最高的安全性级别共享基础架构资源。
适应未来需求的基础架构
ONTAP 9 可帮助您满足瞬息万变的严苛业务需求:
• 无缝扩展和无中断运行。ONTAP 支持向现有控制器和横向扩展集群无中断添加容量。您可以升级到NVMe 和 32 Gb FC 等最新技术,而无需进行代价高昂的数据迁移或中断。
• 云连接。ONTAP 是云互联支持最广泛的存储管理软件,在所有公共云中均提供适用于软件定义的存储(ONTAP Select) 和云原生实例 (NetApp Cloud Volumes Service) 的选项。
• 与新兴应用程序相集成。ONTAP 使用支持现有企业应用程序的相同基础架构为下一代平台和应用程序提供企业级数据服务。
NetApp FlexGroup 卷
培训数据集通常是一个由许多文件组成的大型集合,这些文件可能包含数十亿个文件。此类文件可能包括
文本、音频、视频以及其他形式的非结构化数据,必须进行存储和处理才能并行读取。存储系统必须存储
许多小文件,并且必须并行读取这些文件,以便执行顺序和随机 I/O FlexGroup 卷(图 4)是由多个成员卷组成的单一命名空间,对存储管理员而言,就像 NetApp FlexVol® 卷一样加以管理和使用。FlexGroup 卷中的文件分配给各个成员卷,而且不会跨卷或节点进行条带化。它们支持以下功能:
• FlexGroup 卷可为高元数据工作负载提供高达 20 PB 的容量和可预测的低延迟。
• 它们在同一命名空间中最多支持 4000 亿个文件。
• 它们支持跨 CPU、节点、聚合和成员 FlexVol 卷并行运行 NAS 工作负载。
NetApp Trident
NetApp 提供的 Trident 是适用于 Docker 和 Kubernetes 的开源动态存储配置程序。Trident 与 NGC 和Kubernetes 或 Docker Swarm 等常见业务流程协调程序相结合,支持您将深度学习 NGC 容器映像无缝部署到 NetApp 存储上,从而获得企业级人工智能容器部署体验。此类部署包括自动化流程编排、用于测试和开发的克隆、使用克隆进行升级测试、用于保护和满足合规性要求的副本以及针对 NGC AI 和 DL 容器映像的更多数据管理用例。
NVIDIA Mellanox 网络
NVIDIA Mellanox Spectrum 交换机—深度学习工作负载的理想选择
网络连接是 DL 基础架构的一个关键部分,负责高效,高效地在端点之间移动大量数据。具有一致性
能,智能负载平衡和全面遥测功能的频谱以太网交换机是 DL 工作负载的理想网络元素。
稳定一致的性能
频谱以太网交换机可为 GPU 和 GPU 存储通信提供高带宽和稳定一致的低延迟数据路径。Spectrum 与
DGX A100 系统中的 NVIDIA Mellanox ConnectX ® 适配器一起,实施了一种紧密而高效的 ECN(显式
拥塞通知)机制,可缓解瞬时拥塞并流畅的流量突发,从而最大程度地提高网络吞吐量。
智能负载平衡
网络是一种共享资源,必须在不同的流和端点之间公平地共享其带宽。数据包缓冲架构是交换机影响性能
和流量公平的基本属性之一。Spectrum 交换机采用灵活且完全共享的缓冲区架构,可确保所有端口的性
能均均衡,即使混合使用不同的端口速度也是如此。市场上的许多高速交换机都使用碎片化数据包缓冲
区。缓冲区碎片化的交换机存在计划问题,可以优先为某些端口 / 流量提供更多带宽,而成本则其他端口
/ 流量。这种流量不平衡会导致性能出现更多变化,进而影响分布式 DL 性能。
全面的遥测
要从深度学习基础架构中获得高投资回报,必须改善正常运行时间,并主动监控网络。传统的集中处理通
过 SNMP 或流式传输获取的遥测数据的方法可能会以太网速度快速变得昂贵得令人无法承受。NVIDIA
Mellanox What Just Happened®(WJH)利用硅级功能,在问题发生后立即快速识别并导出有关问题的粒
度信息。由于此功能内置在平台中,因此中央数据收集器只会收集与问题描述相关的数据。WJH 可使主动
式监控以太网速度实现可扩展性和实用性。借助 WJH,客户可以显著缩短解决问题描述的平均时间,并更
好地规划容量。
技术要求
本节介绍 了用于解决方案验证 一节所述测试的硬件和软件。
硬件要求
表 1 列出了用于验证此解决方案的硬件组件。
软件要求
表 2 列出了用于验证解决方案的软件组件。