AI 工作负载需要针对性能、容量和可用性进行优化的存储。发现在为 AI 应用程序规划存储时需要考虑的一切。
当今的 AI 工作负载需要能够提供必要的性能、容量和可用性的存储系统,以确保在应用程序的整个生命周期内可靠运行。人工智能技术,如机器学习、深度学习和预测分析,需要人工智能存储系统能够处理它们生成的大量不同数据,以及波动和流程密集型的工作负载。
以下是在为您的 AI 工作负载规划存储时要考虑的八个因素。
1. 工作负载模式
AI 存储要求因应用程序而异。它们生成不同数量的数据,并具有各种访问要求和 I/O 模式。例如,深度学习应用程序可能需要比基本机器学习应用程序更频繁地访问和处理数据,同时不断将数据添加到现有池中。您必须彻底了解每个工作负载现在和将来的存储要求,并且不要假设任何两个工作负载是相似的。
但了解这些要求并非易事。一个典型的 AI 应用程序会经历多个操作阶段,并且存储要求可能因阶段而异。
例如,在摄取阶段,大量异构数据被收集并保存到磁盘,通常作为顺序写入操作。但是在转换阶段,当必须对数据进行清理、组织和转换时,会读取和写入波动量的数据,从而产生随机和顺序操作。
2、AI存储扩展性
人工智能应用程序需要大量数据。AI 应用程序可用的数据越多,其结果就越准确。这些数据可以来自多种来源和多种格式。诚然,某些 AI 应用程序需要的数据比其他应用程序少,但您仍必须考虑容量和可扩展性要求。请务必考虑复制、移动、聚合或以其他方式操作和处理数据的需要。
所有这些存储都可以代表一项重大投资,无论是在数据中心系统还是基于云的服务中。处理本地所需的存储可能会很昂贵,尤其是使用高性能闪存阵列,但将其全部移植到云端并不总是最好的选择。
降低成本并满足可扩展性要求的一种方法是同时使用闪存和硬盘存储,而不是仅仅依赖闪存。另一种选择是实施混合或多云策略。然而,这种方法的挑战在于,您必须仔细控制跨平台复制或迁移的数据量,并且必须牢记距离。否则,数据复制或迁移成本可能会削弱云战略的优势。
3. 数据持久性
对于某些 AI 应用程序,数据量并不是唯一的考虑因素。您还必须查看需要保留该数据的时间。一些应用程序需要持续的分析,不断地将新数据注入旧数据,这一过程可能跨越数年,从而产生大量信息。为确保数据在持续时间内存在,除了大量存储容量外,您还需要全面的备份和灾难恢复策略。
在评估 AI 应用程序的工作负载模式和可扩展性要求时,请务必考虑诸如必须保留数据多长时间、未来如何访问数据、可以存档哪些数据、何时可以存档和,当然还有在整个生命周期中需要存储的数据量。
4.系统性能
人工智能解决方案收集、处理、聚合、训练和分析数据。为了对海量数据集执行这些操作,人工智能存储必须快速高效,能够提供必要的吞吐量和 I/O 速率,同时减少延迟和争用。如果存储系统的构建和优化无法满足这些需求,您可能需要数周时间才能完成数据训练阶段的单次迭代。
当今的 AI 产品通常在基于 GPU 的高性能计算系统上运行。存储平台必须跟上这些系统的步伐,才能使投资物有所值。这意味着,除其他外,避免 I/O 瓶颈和性能问题。大规模并行存储架构是实现这些 AI 存储目标的一种方法,尤其是在训练数据时,这对计算和存储系统等提出了很高的要求。
5. 数据局部性
数据的位置在有效处理海量数据方面发挥着作用。数据存储得越近,操作的效率就越高。在自己的数据中心或单个云平台上处理和存储数据的组织具有优势。使用混合云和多云战略的组织可能会面临更艰难的时期,从而削弱云战略带来的一些优势。要实施有效的 AI 解决方案,您必须最大限度地减少延迟,而距离可能是导致延迟的最大因素之一。
6.存储类型
实施 AI 工作负载时的另一个考虑因素是如何存储数据。对象数据存储是最常见的方法。它具有支持大量元数据的优势。将元数据与实际数据一起存储可以以多种方式描述数据,这反过来又可以实现更快、更轻松的搜索,这是人工智能分析的一个重要考虑因素。此外,对象存储快速、灵活、节省空间和高度可扩展,使其成为人工智能工作负载的理想选择。
7.持续优化
任何 AI 存储系统都必须不断优化,以最大限度地提高性能并最大限度地减少延迟。今天的智能存储在帮助保持系统优化方面大有帮助。智能存储系统本身使用人工智能技术,可以发现从存储系统以及环境中其他系统收集的度量数据中的模式。通过这些模式,智能系统可以自动解决问题并优化存储性能,无需人工干预。
另一个可以使 AI 工作负载受益的趋势是软件定义存储(SDS),这是一种将存储软件与硬件分离的系统架构。通过抽象物理存储资源,SDS 提供更大的灵活性、简化管理和自动化操作,同时优化存储性能,所有这些都将有利于 AI 工作负载。
8. 跨平台整合
没有系统或应用程序存在于真空中。数据几乎总是来自多个来源——有时是大量来源——并且通常存储在多个位置。混合和多云战略只会增加这种组合,边缘计算、物联网和超融合基础设施等技术也是如此。
无论您的数据如何移动或存储在何处,您都必须确保所有系统彼此无缝集成,以最大限度地减少部署和维护工作以及潜在的瓶颈。尽可能使用基于标准的技术来帮助完成此过程。