存储设备要点概览
-
AI训练场景的关注点:过去两年,AI训练场景受到了业界的极大关注。但是,随着这股热度的降低,人们开始重新审视AI的整个数据生产流程。特别是数据处理平台,作为AI训练的数据源,其处理效率和准确性对于后续操作至关重要。因此,长期建设和维护大数据平台应当得到更多的关注。
-
数据处理环节:左图(未提供)展示了数据湖到数据仓库的演化路径。底层的存储设备主要是大容量的SSDs(固态硬盘)和HDDs(机械硬盘)。
-
业务特征总结:在AI/ML(机器学习)开发生命周期中,输入数据的准确性对模型性能有重大影响。同时,大规模数据集的存储位置和读写特性也是需要考虑的关键因素。
-
非结构化数据和对象存储:随着对非结构化数据分类和检索需求的增长,对象存储在数据加工平台建设中的作用将变得更加重要。
训练场景特征和存储行为
- 并行文件系统:在AI训练场景中,可能仍然以并行文件系统为主,这类系统更关注高并发的随机读写能力。
推理/RAG
- 大容量向量存储:在DaaS(数据即服务)节目中,George对RAG(Ready-to-Answer Generation,一种AI推理场景)在企业数据系统中的集成形态进行了评论。指出企业数据智能的落地可能非常依赖外部的向量数据库。至于这个场景是使用SSD还是基于CXL-DRAM(Compute Express Link-Dynamic Random Access Memory,一种新型内存技术)来实现,可能还需要时间来验证。
AI基础设施的演化方向
-
高性能SSD:AI数据生命周期对SSD主控提出了挑战,需要更先进的SSD来满足需求。
-
系统基础架构:基于PCIe接口的NVMe-SSDs(Non-Volatile Memory Express,一种接口标准)在数据中心的应用将会越来越广泛,特别是随着对性能和容量的双重要求。
-
PCIe 6.0:提到了Marvell(马维尔,一家半导体公司)更先进的SSDs,可能是指基于PCIe 6.0标准的SSDs,这表明未来存储设备将朝着更高性能的方向发展。
要点概览
-
回顾AL负载的数据管道和对存储资源的要求
-
AI基础设施的演化方向,更先进、更解耦
-
先进SSDs 主控优化和PCIe接口参数
总结来说,强调了在AI领域,特别是在AI训练和推理场景中,数据存储和处理的重要性。随着技术的发展,对高性能、大容量存储设备的需求日益增长,同时,如何高效处理和存储非结构化数据也成为了一个关键议题。
- 存储设备
(如SSD和HDD)在AI工作负载的数据处理、训练和推理阶段起着至关重要的作用。
-
数据通过数据湖和数据仓库进行管理,并在推理阶段进行语义检索和增强生成操作。
-
高速存储接口(如PCI Express 6.0)和高容量存储设备(SSD)用于支持AI的高效数据传输与处理。
Note
过去两年,业界对AI 训练场景异常关注,随着热度不断降低,重新回顾AI整个数据生产流,前端的数据处理平台作为训练的数据源,其处理效率和准确性是后向操作的关键,应该更加关注大数据平台的长期建设和维护。
数据处理环节
左图示意,数据湖 -- 数据仓库的演化路径
数据存储类型:
-
数据湖:原始用户输入和系统数据。
-
数据仓库:
-
数据库(RDBMS,向量)
-
文件(CSV、Parquet)
-
知识图谱
-
底层的存储设备:大容量 SSDs、HDDs。
对数据处理环境业务特征的总结:
- 主导AI/ML开发生命周期
- 输入数据的准确性对模型性能有重大影响
- 大规模数据集存储位置
-
数据湖(非结构化数据)
-
数据库、CSV、Parquet、JSON(结构化数据)
-
- 读写特性
-
高频读取,写入负载较重
-
Note
随着非结构化数据分类、检索的需求不断增强,对象存储将在数据加工的平台建设中,发挥更积极的作用。
训练场景特征和存储行为
-
AI模型训练过程中,快速数据检索和定期检查点是关键,旨在减少GPU空闲时间和提升可观察性。
-
训练过程中的混合读写与突发写入对存储设备的性能提出了高要求,特别是需要高带宽和低延迟的SSD和PCI Express 6.0接口。
Note
训练场景可能还是以并行文件系统为主,更关注高并发的随机读写能力。
推理/RAG
- RAG
(检索增强生成)通过外部数据检索增强LLM的推理能力,特别适用于Chatbot查询和语义搜索任务。
-
由于任务是I/O密集型,需要高性能存储(如SSD)和高速数据接口(PCI Express 6.0)来支持数据的快速读取与处理。
- 大容量向量存储
是实现大规模RAG任务的核心需求之一。
Note
George 在 DaaS 节目里对RAG在企业数据系统的集成形态,曾有过精妙的评论,企业数据智能的落地,可能得非常依靠外部向量数据库,这个场景是SSD来做,还是基于CXL-DRAM来实现,可能仍需时间来检验。
AI 基础设施的演化方向
-
AI基础设施从紧耦合发展到分离存储,最终实现全面分离,以支持超大规模生产。
- 高性能SSD
和网络优化是AI基础设施演进过程中关键的存储与性能支持。
-
AI/ML开发阶段的不同需求会直接影响存储和网络的设计与部署。
AI数据生命周期对SSD主控的挑战
-
闪存控制器设计需满足AI/ML工作负载,提供高速数据传输与低延迟响应。
- 系统基础架构
与NAND特性的分布式优化设计,进一步提升了系统的容量、性能与可靠性。
-
控制器的关键特性包括:协议支持、PCIe通道管理、计算卸载与硬件加速等,支撑AI/ML应用的高性能需求。
更先进的SSDs (Marvell)
-
PCIe从3.0到6.0代际,数据传输速度、NAND性能和SSD容量显著提升。
- PCIe 6.0
提供28 GBps的传输速度、4800 MT/s的NAND性能和256TB的SSD容量,满足AI工作负载对性能、容量和可靠性的严苛要求。
-
LDPC纠错技术不断升级(从LDPC到LDPC+++),进一步提升数据传输的可靠性。
Note
随着场景对性能和容量的双重要求,基于PCIe接口的NVMe-SSDs, 在数据中心的广泛应用,将是不争的事实。
---【本文完】---