我的AI存储实践及思考

本文作者分享了人工智能行业存储方案从Lustre到BeeGFS+Ceph再到DAOS的变迁,强调了AI训练对存储系统的新需求,特别是高吞吐、低延迟和扩展性。作者认为DAOS可能成为未来的选择,因为其支持新技术和更高的性能要求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言

我从2020年进入人工智能行业,开始为AI训练提供存储解决方案及技术支持,随着这几年行业以及公司的发展,采用的存储方案经历了几次大的演变 ,最开始使用的是分布式并行文件系统Lustre,接着是BeeGFS+Ceph,再到最近的分布式异步对象存储DAOS,本文结合自己的经历,将历次存储架构/方案选型的背景,考量及部署,思考记录如下(保密要求,略过了部分配置及拓扑细节),供参考。

第一阶段

在2020年之前,国内AI还是以计算机视觉为主,如:AI四小龙,聚焦在计算机视觉,语音识别等方向的算法优化,以提高人脸,图形,物体的识别率,主要用于智能安防,智慧城市,智慧教育等行业。主要的训练数据类型是图片,音频。

AI与HPC有相似的地方,比如:都能用于科学技术,都需要高效的计算能力,都需要处理不断增长的数据集等,TensorFlow,PyTorch等机器学习框架对posix文件系统接口支持也更友好,因此在这个时期我们直接选用了HPC领域使用最广泛的文件系统Lustre作为AI存储基础设施。Lustre是一个Linux集群并行文件系统,提供了符合POSIX标准的UNIX文件系统接口,这对于不熟悉/没有存储背景的科研人员/Ai研究员非常友好,可以像访问本地文件数据一样访问Lustre文件系统上的数据。

与现在流行的分布式存储系统不同,Lustre没有实现原生的数据可靠性机制,服务的可用性也需要借助外部机制实现。为提供可靠的存储服务,综合考虑性价比,对于容量集群:在硬件层面,我们提供2节点MDS+2(2+)节点OSD的Lustre集群,采用IP-SAN盘阵作为Lustre系统的后端持久化介质,典型的配置:每个机头节点包含2颗62xx系列的CPU+512GB DDR4内存+100Gbps RoCE网络,24盘位的SATA-SSD盘阵组成RAID10作为Lustre MDT通过多路径挂载到两个MDS节点,80盘位的SAS-HDD盘阵组成RAID6作为Lustre OST通过多路径挂载到两个OSD节点;在系统和软件层面,2.10.x/2.12.x版本的Lustre部署在CentOS7.6/7.9系统上,2节点MDS组成Active-standy模式,通过crosync+pacemaker实现故障时的MDT和OST资源转移,提供5分钟级的故障恢复能力。

Lustre缓存集群没有强可靠性要求,因此直接使用存储节点上的本地NVMe SSD来搭建,6节点组成100TB的高性能集群,典型的硬件配置:每个节点包含2颗62xx系列的CPU+512GB DDR4内存+100Gbps RoCE网络+若干4TB的 NVMe SSD,在系统和软件层面,2.10.x/2.12.x版本的Lustre部署在CentOS7.6/7.9系统上。MemCache缓存集群使用各计算节点上的内存构成分布式缓存(提供对小于1MB图片的缓存)。

得益于Lustre系统良好的稳定性及性能,该存储方案较好的支持了公司的Ai训练业务及工作负载,截止2021年底,我们上线了数十套容量在500TB~3PB不等的Lustre容量集群以及数十套容量在100TB的Lustre缓存集群,总计存放了数十PB的数据集。在每个Ai训练(Slurm计算)分区,我们提供一套Lustre容量集群、一套Lustre缓存集群以及一套MemCache缓存集群作为整套存储方案,Lustre容量集群用于存储本分区的所有数据集,Lustre缓存集群作为用户家目录,主要用于存放训练代码,MemCache缓存集群用于加速训练中的图片访问

第二阶段

从2021年初开始,随着积累的训练数据越来越多,每套集群数十亿平均几十KB的小图片以及单次Ai训练数据集规模从数十万~ 数百万增长到数千万~亿级小图片,运营Lustre集群过程中遇到的问题越来越多:

  • 升级困难,集群可用性降低:Lustre是纯内核态实现,支持不足,修复Bug或者想要使用新特性需要停机升级,导致数小时不可用
  • 数据孤岛,数据归集困难:分散各地的训练集群通过专线连接,跨地域跨集群访问效率低下,数据迁移困难
  • 大量小文件,集群性能遇瓶颈:单集群数十亿单数十KB的图片,Lustre 元数据服务MDS遇到容量和性能瓶颈
  • 并发训练,集群稳定性降低:训练程序与MemCache集群争抢内存,导致oom,Lustre过载导致客户端hang
  • 集群众多,管理复杂:数十套集群,权限管理及资源分发运营量大,数据管理复杂

于是我们启动了Lustre的替代计划,首先我们分析了Ai训练过程及对存储的要求,如下表

数据采集预处理模型训练推理
是指通过网络爬虫,数据采购等方式收集模型训练所需要的原始数据并储存起来(主要是图片)对采集的原始数据进行清洗和处理,如:去重,填充缺失值、删除异常值,(人工)标注等主要是根据预定的目标和要求,选择合适的机器学习算法或构建深度学习网络(主要是CNN,RNN等),对预处理后的数据进行训练,建模利用训练好的模型对新的数据进行预测,并将预测结果应用到实际场景中,例如分类、回归、聚类等
存储需求具备处理高度多变数据格式的灵活性减少数据准备时间缩短训练时间具备处理高度多变数据格式的灵活性
对存储系统的要求访问模式随机写随机随机随机
工作负载写密集型读写混合读密集型(某些写入来自checkpoint)读密集型
I/O大小
服务质量非常高非常高
IOPS非常高非常高非常高中等

厘清需求后,我们分析调研了IO 500榜单中及各流行的开源存储系统,如:Ceph,BeeGFS,Glusterfs,SeaweedFS,JuiceFS,CubeFS,DAOS等,结合上述的存储需求及自身的研发能力,从存储系统的可靠性,可用性,可维护性,可扩展性,社区支持能力,性能等11个指标对主流的系统进行了评估以及测试,鉴于BeeGFS对Posix的良好支持、优秀的扩展能力及优异的性能表现等,Ceph优秀的稳定性及活跃的社区支持等,最终我们选择了BeeGFS+Ceph OSS作为我们新的Ai存储技术方案。

BeeGFS可以看作是应用态实现的增强型的Lustre版本,其除私有客户端在内核态实现,服务端组件都在应用态实现,相比Lustre极大的简化了维护成本以及降低了开发难度,相比Lustre,BeeGFS的增强主要体现在:分布式的MDS集群,可以轻松扩展到数十组节点,支持数PB的容量以及基于副本的可靠性,BeeGFS也有不足的地方,如:单节点MGS,不支持QoS,依赖本地文件系统(Ext4、XFS、ZFS)的Quota,单目录文件数受限等,因此在上线前,我们也对这些方面进行了增强:实现了基于Raft的MGS,多副本的可靠性,基于目录的QoS,基于目录/用户/用户组的Quota等。在我们的方案中,BeeGFS用作用户家目录,存放代码仓库以及训练数据缓存,因此,我们采用高配置部署,每套集群包含数十台节点,提供数PB容量,千万级IOPS:每个节点包含2颗63xx系列的CPU+512GB DDR4内存+100Gbps RoCE网络+若干7.68TB的 NVMe SSD。

Ceph OSS得益于其优秀的稳定性,在国内被大规模的使用,是用作数据湖的不错选项。在我们的方案中,Ceph OSS用作原始数据仓,提供HDD存储池以及SSD存储池,HDD存储池用于存放采集的原始数据,鉴于数据量较大,我们采用了大容量HDD磁盘,每套集群包含近百台节点,提供数十PB容量:每台节点包含2颗63xx系列的CPU+256GB DDR4内存+100Gbps RoCE网络+数十块18TB的SATA HDD,SSD用于存放处理后的数据以及checkpoint,兼具容量和性能,每套集群包含数十个节点,提供数PB容量:每个节点包含2颗63xx系列的CPU+512GB DDR4内存+100Gbps RoCE网络+若干7.68TB的 NVMe SSD。

为方便系统的运营管理,我们开发了一套数据管理系统,用于上线后的系统运维和运营,实现资源的可视化发放,用户数据的可视化管理,数据迁移等。

随着新采集数据的存入以及Lustre数据逐步迁移到新集群,截止2022年下旬,我们在两个机房分别上线了一套新架构存储集群: 2PB的BeeGFS+30PB的Ceph OSS HDD+4PB的Ceph OSS SSD,支撑了公司绝大部分的Ai训练任务及工作负载(少部分在Lustre上),存储网络示意图如下:
存储组网
随着Lustre数据逐步迁移,新存储架构成为公司主要Ai存储设施,Lustre系统面临的升级问题,数据孤岛问题,性能问题以及管理问题等都得到了极大的缓解及改善。

当前

上线以来,基于BeeGFS+Ceph OSS的Ai存储系统整体运行良好,目前仍然是我们线上的主存储系统,使用率已超过60%,随着大模型的火爆也带来了一些挑战。2022年11月OpenAI发布ChatGPT3.5后,国内也掀起了“LLM百团大战”。与计算机视觉以图片,音频,视频为训练数据不同,大模型的训练数据为文本,多模态则包含了文本,图片,后面可能还会包含音频,视频等。采集的文本,通常是数GB的文本文件,生成的tokenize文件也在数(十)MB,与计算机视觉的处理过程相同,大模型训练也包含4个阶段:

数据采集预处理模型训练推理
是指通过网络爬虫,数据采购等方式收集模型训练所需要的原始数据并储存起来(主要是文本)对采集的原始数据进行清洗和处理,如:去重,去广告,格式化,tokenize等主要是根据预定的目标和要求,选择合适的机器学习算法或构建深度学习网络(主要是Transformer),对预处理后的数据进行训练,建模利用训练好的模型对新的数据进行预测,并将预测结果应用到实际场景中,例如问答,生图等
存储需求具备处理高度多变数据格式的灵活性减少数据准备时间缩短训练时间具备处理高度多变数据格式的灵活性
对存储系统的要求访问模式顺序写随机随机随机
工作负载写密集型读写混合(可能达到50/50)读密集型(某些写入来自checkpoint)读密集型
I/O大小
服务质量非常高非常高
吞吐量非常高非常高非常高中等

对比上述的两个表格,可以发现大模型对存储系统的要求比计算机视觉更高。计算机视觉训练更多的是随机小I/O,对IOPS和延迟更敏感,大模型训练则是混合I/O,对IOPS,吞吐及延迟都提出了很高的要求。

2023以来,随着大模型参数的急剧增长,以及新热点的出现,如:长文本处理,文图多模态训练等,当前BeeGFS+Ceph OSS的存储方案也面临挑战,主要表现在:

  • 吞吐不足,带来训练加载以及checkpoint写入等待(对于checkpoint目前是先写到计算节点的本地NVMe盘,再异步回写到后端存储上)
  • 目录或存储桶性能扩展性不足,导致目录或存储桶存放的文件数受限,大目录访问性能下降
  • 存储效率偏低,BeeGFS和Ceph引擎面向HDD设计,NVMe的性能效率较低

鉴于此,Intel Daos再次进入了我们的视线,在此前考虑到产品的成熟度,稳定性以及Intel Optane停产风险等因素后,Daos被排除出第二阶段的候选方案。经过两年多的发展,基于(intel Optane)的Daos版本开始成熟,商业及云方案也开始出现,如:Google Cloud和IBM Cloud上的DAOS方案, Metadata-on-SSD的技术落地社区也在如火如荼的推进中(第一版已经发布),根据社区计划,预计24年Q1发布完整的Metadata-on-SSD的功能,考虑到DAOS对新型硬件的支持能力及未来CXL技术的发展和应用,和存储的发展趋势,我们认为:用DAOS方案替代BeeGFS+Ceph OSS方案是个值得尝试的选项,目前已经在内部测试及验证DAOS Metadata-on-SSD版本替代BeeGFS的可行性,第一阶段计划24年H1线上试点,取代新增的BeeGFS需求。

注:据观察了解,现在Ai项目还处于不计成本阶段,Ai基础设施的成本大头在计算(GPU)和高性能网络,而Ai的绝对数据量还不大(PB级),千亿级参数
Ai训练的数据集规模通常在数TB级别,就当下的实践而言,采用基于NVMe SSD的高性能分布式文件系统就能满足Ai工作负载要求。我们方案中采用的
BeeGFS是为HPC专门设计的并行文件系统,经过优化后也能很好的满足当前的需求。

观察和思考

AI存储应该是怎么样的?

AI存储专为满足AI独特的工作负载而设计和优化,这些工作负载通常包括大规模数据集、高吞吐低延迟数据访问以及复杂的数据处理。结合自身实践经验及观察,AI存储应在以下方面对AI工作负载进行优化:

  • 高吞吐:AI工作负载通常需要快速处理大规模的数据集,存储系统具备高吞吐能力,可以高效的在存储和计算间传输数据,确保计算效率最大化
  • 低延迟:快速的数据访问对AI应用至关重要,存储系统应以最小的延迟,提供最快速的数据检索和存储
  • 并行性:AI工作负载高度并行化,存储系统支持并行数据访问,可以实现AI算法的高效并行处理
  • 扩展性:AI项目通常需要存储和处理大规模的数据,存储系统必须能够轻松扩展以满足不对增长的容量和性能需求
  • 数据分层:AI项目通常会沉淀海量的数据,AI存储可以采用分层技术将经常访问的数据放置在高性能存储层上,而不经常访问的数据放置在容量层上,这有助于平衡性能和成本
  • 数据安全:AI工作负载通常涉及敏感数据,AI存储应考虑数据安全和隐私措施,如:访问控制,法规遵从,加密等
  • 易用性:AI存储应与主流的AI框架易于集成,方便AI研究员及科学家的协作与使用
<think>好的,我现在需要帮助用户了解诊断数据平台化的实现方法、架构设计和最佳实践。首先,我应该明确用户的问题范围,他们可能想知道如何将诊断数据整合到一个平台中,包括技术架构、数据处理流程以及行业内的成功案例或标准做法。 接下来,我需要回顾已有的知识库引用。引用[1]提到大数据平台的核心算法与模型,以及开发工具和应用,这可能涉及到数据处理和分析的模块。引用[2]中的HarmonyOS架构强调安全性和分布式数据管理,这对诊断数据平台的安全性设计可能有参考价值。引用[3]讨论Zabbix的数据中心管理,涉及监控和自动化技术,这对于诊断数据的实时监控和自动化处理有帮助。引用[4]提到的自然语言处理技术,可能在数据预处理阶段用于文本分析,比如日志解析。 然后,我需要组织回答的结构。通常,架构设计可以分为数据采集、存储、处理、分析和应用层。每个部分需要具体的技术方案,比如使用Kafka进行数据采集,Hadoop或云存储进行数据存储,Spark或Flink进行流处理,机器学习模型进行分析,以及可视化工具展示结果。同时,安全性、合规性和扩展性也是关键点,需要引用[2]的安全架构和引用[1]的大数据技术栈。 在最佳实践部分,可能需要提到模块化设计、自动化监控(引用[3]的Zabbix经验)、数据治理和持续优化。例如,采用微服务架构便于扩展,使用自动化工具减少人工干预,建立数据质量管理体系,并通过用户反馈持续改进平台功能。 还需要生成相关问题,引导用户深入思考,比如数据治理策略、实时处理技术选择、安全机制设计等。这些问题应覆盖架构的不同方面,帮助用户全面理解。 最后,检查是否符合系统级指令:使用正确的中文格式,LaTeX数学表达式正确,引用标识自然添加。确保回答结构清晰,分点明确,引用来源准确对应。</think>### 诊断数据平台化的实现方法与架构设计 #### 一、核心概念 诊断数据平台化指通过统一的技术架构整合多源异构诊断数据(如设备日志、传感器数据、用户行为记录等),实现数据的标准化存储、实时分析、智能诊断和可视化展示。其核心目标是提升故障预测精度、缩短响应时间并支持决策优化[^1]。 #### 二、架构设计关键模块 1. **数据采集层** - **多协议适配**:支持MQTT、HTTP、gRPC等协议,兼容工业设备(如PLC)、IoT终端和软件系统的数据接入 - **流批一体采集**:采用Apache Kafka或AWS Kinesis实现高吞吐量数据流处理,结合Flink CDC捕获数据库变更 - **示例代码(数据清洗)**: ```python def data_cleaning(raw_data): # 去除异常值(基于3σ原则) mean = np.mean(raw_data) std = np.std(raw_data) return [x for x in raw_data if (mean - 3*std) < x < (mean + 3*std)] ``` 2. **存储层** - **分层存储架构**: $$ \text{热数据(Redis)} \rightarrow \text{温数据(HBase)} \rightarrow \text{冷数据(对象存储)} $$ - **时序数据库选型**:InfluxDB或TDengine,支持高并发写入(>10万数据点/秒)[^3] 3. **分析层** - **实时诊断引擎**:基于Apache Flink构建流式计算管道,实现$\mu s$级延迟的异常检测 - **机器学习模型**:采用LSTM网络进行时序预测,公式表达: $$ h_t = \sigma(W_{xh}x_t + W_{hh}h_{t-1} + b_h) $$ 其中$\sigma$为激活函数,$W$为权重矩阵[^4] 4. **应用层** - **可视化看板**:集成Grafana或Echarts,支持多维度钻取分析 - **根因分析(RCA)**:基于图神经网络构建故障传播模型 #### 三、最佳实践 1. **安全设计** - 借鉴HarmonyOS的"三正确"原则[^2]: - 基于OAuth2.0实现设备-用户-操作的权限绑定 - 数据加密采用AES-256-GCM模式,密钥轮换周期≤24小时 2. **性能优化** - **数据分区策略**:按设备ID+时间戳组合分片(如${device_id}_{yyyyMMdd}$) - **缓存机制**:Guava Cache实现热点数据内存缓存,命中率>95% 3. **运维监控 - 参考Zabbix监控模板[^3],自定义指标: ```sql CREATE METRIC diagnostic_latency TYPE histogram LABELS ('service','region'); ``` #### 四、典型技术栈 | 层级 | 开源方案 | 商业方案 | |------------|-----------------------|--------------------| | 数据采集 | Telegraf, Fluentd | AWS IoT Core | | 流处理 | Apache Storm, Spark | Azure Stream Analytics | | 存储 | OpenTSDB, Cassandra | Snowflake |
评论 5
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值