AIGC 在 2023 年爆火,各类大模型层出不穷,参数动辄达到千亿数量级。这些背后,数据的类型和形式也走向复杂多样。例如大模型会采用到我们真实物理世界中的文字、视觉、音频、3D、雷达、多谱等复杂多样的不同模态信号和数据,数据则又存在结构化、半结构化、非结构化等多种形式。
云计算之后,AIGC 让数据存储面临新的挑战
数据存储需要从规模、类型、协议、性能等等方面去满足大模型运行效率,也因此,数据存储在云计算之后,再次面临了新的技术挑战。例如:
一、异构数据的融合。
生成式 AI 训练模型的数据呈现来源多、格式多的多源异构现状,传统存储面向单一数据类型设计,需要以搬移数据的方式实现多协议访问,存储成为应用平台的关键瓶颈;
二、持续的低延迟与高带宽。
模型训练过程中,频繁地从数据集取 Token,每个 Token 一般 4 字节,实时高并发小 IO 性能需要极低的延迟;存储模型 Checkpoint 时,为 Checkpoint 数据可快速写入,需要高带宽;
三、EB 级大容量存储需求。
越多的数据投喂结果越精准的工作原理,决定了大模型训练存在深度学习网络层数多、连接多、参数和数据集种类复杂、数据量大的特征,随着模型参数和数据量的快速增长,对于存储的大容量和扩展需求也迫在眉睫。
浪潮信息发布 AIGC 存储方案——AS13000融合存储系统
提到存储,浪潮信息近年在数据存储技术领域一直深耕并取得了亮眼的成绩。据分析机构 Gartner 2022 年报告显示,浪潮信息以存储装机容量占比 11% 已经进入全球前三名,另据 IDC2022 年四季度报告显示,浪潮在分布式文件存储市场销量第一,每 5 台文件存储中 1 台来自浪潮信息。
在 AI 大模型的研发上,浪潮信息早在 2021 年就发布了中文语言大模型“源 1.0”,对于 AI 与数据存储的积累之上,近日浪潮信息正式发布面向生成式 AI 的存储解决方案。方案基于浪潮 AS13000 融合存储系统,可以支撑 AIGC 产业上中下游业务应用,并针对不同业务阶段的数据存储需求,提供热温冷冰四级存储,实现数据在各级存储间自动流转。用高性能节点形态来满足数据训练、数据推理两个阶段的高带宽、低延时、高并行读写性能存储需求,用大容量节点形态来满足数据采集、数据准备、数据归档三个阶段的海量多元数据存储需求,方案具备极致融合、极致性能、极致节能三大能力,以及热、温、冷、冰四级数据全生命周期存储管理能力,助力生成式 AI 突破海量数据存力瓶颈,加速释放数据的价值。
详细来说,针对 AI 与大模型对于数据的各类需求,浪潮 AS13000 融合存储系统从多模态数据融合、数据存储性能、绿色数据中心设计方案、数据全生命周期四个方面,进行了设计与研发。
一、极致融合,应对 AIGC 海量多源异构数据存储。
为了应对不同模态的多样性需求,浪潮信息提出“协议互通、数据融合”设计理念,一个集群内支持多个存储池,一个存储池内支持文本、图片、音频、视频等多种类型数据存储,一份数据又可以被前端不同业务场景同时以文件、对象、大数据、视频四种存储协议进行并行访问。用一套存储实现支持多模态场景应用,免除了数据跨应用时的复制,实现真正意义上非结构化数据的协议互访互通,让数据融合。
二、极致性能,应对 AIGC 大模型训练。
AIGC 场景数据类型多样化,文件大小不一、数量多,且读写频繁,对存储系统的百 GB 级高带宽、百万级 IOPS 需求成了常态。浪潮信息在软件方面,通过数控分离架构减少东西向数据量的转发,通过 GDS、RMDA 技术缩短 I/O 路径,通过 SPDK、缓存零拷贝技术减少 I/O 路径上的数据拷贝,以及基于自研 NVMe SSD 开发的盘控协同技术,减少 I/O 访问 SSD 盘的次数,使存储性能得到进一步释放。在硬件方面,优化 IO 路径通道,均衡 IO 路径,最大化发挥硬件性能,全闪单节点带宽超过 50GB/s,IOPS 超过 50 万;此外,创新性地引入双控全闪节点,带宽超 100GB/s,IOPS 超 100 万,真正使系统具备千万级 IOPS、EB 级带宽,充分满足 AIGC 场景对存储系统的苛刻要求。
三、极致节能,打造绿色数据中心。
浪潮信息近期最新发布了 G7 硬件平台,存储专用的液冷服务器涵盖性能型和容量型,且均采用模块化冷板组件设计模式。在系统方案层面,浪潮信息具有风液式、液液式等完善的端到端解决方案,能够为用户全方位打造液冷数据中心交钥匙工程,并且完成了业界首次液冷整机柜批量交付,实现 PUE<1.1。
四、端到端数据全生命周期管理,实现 AIGC 底层数据智能治理。
除了三大“极致”能力之外,得益于“资源互通、管理融合”的设计理念,浪潮信息生成式 AI 存储方案基于闪存、磁盘、磁带、光盘四种介质提供热温冷冰四种存储资源,通过资源互通实现数据全生命周期管理。基于数据的热度识别,自动释放在线存储空间,可以将海量数据自动归档到光盘库,降低长期存储成本;实现冷数据的分钟级快速回调,满足 0~4 级应用的存储需求。四种介质、四类存储节点,提供热温冷冰自动流转,满足各类应用的灵活配置需求,通过性能型、均衡型、容量型、高密容量型四种机型的按需灵活配置,进一步降低整体投入。
据介绍,浪潮信息生成式 AI 存储解决方案已经在中文语言大模型“源 1.0”中成功落地,面对千亿级参数量和数据量带来的挑战,浪潮信息通过 AS13000 高吞吐并行存储系统实现了多存储协议互通、数据融合,利用全闪的极致性能,助力“源 1.0”大模型实现了 16 天完成训练的超高效率。另外,国内 AI 独角兽公司采用浪潮信息提供的并行文件存储,承载 5000 亿参数量的 NLP 语言类大模型的数据集 Token 和 CheckPoint 文件,轻松应对大/小文件的读写挑战,配置 AS13000 全闪存储集群,支持高性能 RocE 组网和 GPU 直通存储功能,带宽超过 300GB、存储性能超过 350 万 IOPS,保证存储集群的高可用与敏捷扩容。
依据在大模型与 AI 存储解决方案的积累,可以看到,浪潮信息在打造针对 AIGC 的数据存储大底座,接下来浪潮信息还将联合合作伙伴,助力生成式 AI 在金融虚拟客服、图片编辑设计、智能驾驶、跨模态检索等场景和行业模型方案的落地工作,让 AI 大模型真正落地生花,进入千行百业的生产流程中,发挥 AIGC 的更多价值。CSDN 也将持续报道大模型与数据存储技术最新进展。