在当今 AI 驱动的企业环境中,资源优化已从理想的目标演变为运营的当务之急。随着组织扩展其人工智能计划以满足不断增长的创新需求,计算资源的高效编排直接影响运营性能和模型精度。即将将 NVIDIA GPUDirect Storage (GDS) 与 MinIO AIStor 集成是一个联合设计的解决方案,计划在未来几周内全面推出,并通过私人预览版向我们的测试版客户开放。该解决方案重新定义了效率,为企业 AI 工作负载解锁了新的可能性。
GPUDirect 存储的强大功能:重新定义数据访问
NVIDIA® GPUDirect® 是一套技术,旨在优化 GPU 和其他系统组件之间的数据传输,通过最大限度地减少 CPU 参与和减少延迟来提高性能。GPUDirect 系列包括几项关键技术:
GPUDirect RDMA(远程直接内存访问):支持跨网络在 GPU 和网络接口卡 (NIC) 之间直接访问内存,从而促进分布式计算环境中 GPU 之间的高速数据传输。
GPUDirect 点对点 (P2P):通过 PCIe 和 NVLink 等高速互连实现同一系统内 GPU 之间的直接数据传输,这对于多 GPU 设置中的高效数据共享至关重要。
GPUDirect Storage (GDS):这从根本上改变了数据存储系统和 GPU 内存之间的流动方式。通过建立完全避开 CPU 内存的直接管道,GDS 消除了 GPU 加速环境中持续存在的低效率问题:在大容量数据传输期间对 CPU 资源的负担。
现代 AI 和机器学习工作负载(以海量模型和数据大小为特征)对系统资源提出了极高的要求。从历史上看,这些作会带来大量的 CPU 开销,企业不情愿地接受了这一成本,作为 AI 开发的一部分。GDS 改变了这种模式。通过在数据移动中使用 RDMA 最大限度地减少 CPU 参与,它释放了一个战略机会,可以将计算资源重定向到高价值任务,例如实时分析、管道优化和模型优化。
AI 训练工作负载中的数据移动挑战
现代 AI 训练工作流程的核心是两个计算要求高且具有战略关键性的流程:数据加载以及模型检查点和加载。这些作不仅仅是技术必需品;它们是企业 AI 计划的弹性、可扩展性和最终成功的基础。AI 训练涉及存储在数据湖仓一体中的大量(通常是 EB 级)数据集,并从各种数据源(如数据库、API 和文件系统)聚合而来。数据加载是第一个支柱,包括检索这些数据集、对其进行预处理以满足机器学习模型的特定需求以及有效地将它们传输到 GPU 内存进行训练的大规模任务。数据加载的预处理阶段不依赖于 GPU,而是在数据湖仓一体中 CPU 驱动的分布式系统上蓬勃发展,其中 Apache Spark 等工具处理摄取、清理、规范化和标记化,结果暂存在 AIStor 上。在这里,数据科学家利用 DataLoader API 获取暂存在 AIStor 支持的数据湖仓一体上的预处理数据集,并通过将这些预处理后的数据集实时批处理并交付到 GPU 来启动训练阶段。这绝非易事 — 任何效率低下,无论是在 Spark 的预处理还是 DataLoader 的运行时交付中,都会直接转化为延迟、成本增加和错失创新机会。
同时,训练过程中的模型检查点和重新加载是第二大支柱,确保运营连续性并保护企业在 AI 开发方面的大量投资。检查点涉及定期保存训练模型的状态(权重、参数等),以防止硬件故障或断电等中断,并实现无缝恢复或迭代实验。对于可能需要数天或数周时间进行训练的大型模型,此过程是必不可少的。然而,它本身也带来了复杂性:每个检查点都需要将大量数据(主要由非常大的文件组成)写入共享存储。虽然异步检查点等现代技术引入了并行性并使检查点成为非阻塞的,从而减轻了持续训练的直接负担,但这一进步并不能消除以高写入吞吐量快速卸载检查点数据的需求。将这些检查点迅速耗尽到持久存储对于确保在训练中断时立即提供最新状态仍然至关重要。如果发生中断,将最新的检查点从存储快速重新加载回 GPU 服务器也很重要。快速检查点和重新加载相结合,可实现无缝训练重启,并最大限度地提高整体训练效率和端到端性能。MinIO AIStor 提供卓越的写入和读取吞吐量,使其成为 AI 工作流中模型检查点和重新加载的高效解决方案。
在 PyTorch 等广泛采用的框架中,这些关键工作流依赖于多阶段进程,这些进程会给 CPU 资源带来沉重的负担。在数据加载期间,必须获取数据,将其缓冲在 CPU 内存中,然后传输到 GPU 内存,这会消耗宝贵的计算周期并引入延迟。检查点遵循类似的 CPU 密集型路径,因为模型状态在进入持久存储之前通过内存层次结构进行封送。对于跨分布式集群扩展 AI 的企业来说,这种低效率会加剧,使基础设施预算不堪重负,并转移模型优化核心任务的计算能力。为了充分释放 NVIDIA GPUDirect Storage (GDS) 的潜力,组织正在准备将 NVIDIA GDS 库与领先的 AI 框架进行更深入的集成。这种集成旨在通过直接与 GPU 内存连接来简化数据移动,从而显著提高模型检查点和重新加载过程的效率。随着这种变革性集成的进展,MinIO AIStor 始终处于领先地位,始终如一地将网络带宽直接饱和到 GPU 服务器,以提供卓越的性能和可扩展性,使企业能够自信地加速其 AI 创新。
MinIO AIStor:专为性能而设计,为效率而优化
MinIO AIStor 已经擅长使用标准 S3 over TCP 和以太网使高性能网络(400GbE 及更高)饱和。AIStor 的实际实现的 GET 和 PUT 吞吐量已经超过 3 TiB/s,在单个数百 PB 的命名空间中令人难以置信。这种公认的性价比领先地位意味着,对于 MinIO 来说,与我们的竞争对手不同,集成 GPUDirect Storage 并不是为了提高原始吞吐量;而是要显著降低有价值的 GPU 服务器的 CPU 消耗。这种对 CPU 效率的战略关注与 MinIO 对优化整个 AI 基础设施堆栈的承诺相一致。通过释放以前由数据移动作消耗的 CPU 资源,组织可以将计算能力重新用于高价值活动:实时管道监控、复杂的分析和优化技术,直接提高模型准确性和业务成果。
许多存储供应商将 NVIDIA GPUDirect Storage 作为生命线,希望提高其性能要求。然而,即使使用 GDS,它们也无法为每个存储服务器提供 200GbE 的饱和网络带宽,这暴露了其吞吐量性能能力方面的关键差距。这种吞吐量差距降低了他们对存储服务器的利用率,增加了成本并降低了性价比。虽然 MinIO AIStor 已经在每个存储服务器上使高性能网络饱和,从而经济高效地使 GPU 计算集群带宽饱和,但 GDS 通过卸载 GPU 服务器上的 CPU 资源来增强这一基础,以执行可观察性和管道优化等关键任务。其结果是一个提供可衡量的成本效益和卓越运营的解决方案,树立了其他人难以达到的标准。
结论
NVIDIA GPUDirect Storage 与 MinIO AIStor 的集成代表了 AI 基础设施的战略拐点。通过消除数据传输作中不必要的 CPU 开销,这项技术使 AI 团队能够将计算资源集中在真正重要的事情上:提高模型质量、提高运营智能和加快获得见解的时间。在 AI 功能日益定义竞争优势的时代,这种资源优化策略提供了切实的好处,远远超出了简单的性能指标,为更复杂、更高效和有效的 AI 计划奠定了基础。