存力升级 按下生成式 AI 加速键

自 ChatGPT 横空出世,由生成式 AI 引发的热潮就此展开。面对生成式 AI 这把科技革命的金钥匙,国内厂商也是跃跃欲试,短短地几个月时间里,国内已有近百家 AI 大模型涌现市场。

从上半年生成式 AI 和通用大模型百花齐放,到下半年众多垂直大模型也开始奋起直追。可见,国内厂商正纷纷选择自身擅长的赛道起跑,加入这场激烈的大模型之争。这不仅在业内催生出以模型为核心提供服务的商业模式,更推动大模型正式从理论化、工程化,发展到向深向实的落地应用。

「木桶效应」凸显,存算协同发展成为行业共识

目前,行业内对 AI 基础底座算力和 AI 推动力量算法十分关注。但作为 AI 算法「饲料」的数据,其庞大的存储需求却未受到重视。据统计,预计到 2025 年,我国将有超过 420EB 的巨大存储缺口亟待补充。

庞大存储缺口也预示着大模型训练的发展已经进入第三阶段。在第一阶段,由于模型和数据量较少,发展重点聚焦于单机算法效率和算力性能的提升,数据存储也多为本地内存或数据盘。随着模型和数据量的增加,推动发展进入第二阶段,此时重点聚焦与多机算法效率和算力性能的提升,同时鉴于训练需要高效地数据共享需求,数据存储也采用商用网络存储。

而伴随大模型的兴起,训练规模与机器部署规模都大幅提升,发展正式进入第三阶段,算力、算法、数据正式形成木桶效应。此时企业对存储的需求将不再是「有即可」,而是需要通专业的存储技术二次开发整个存储体系,以此快速提升计算资源利用率。否则面对海量的数据,不仅要面对高昂的存储成本,更难以实现在同一平台上的多业务并行训练。中科曙光存储事业部副总经理张新凤表示:未来 AI 将成为数字经济基础设施的标配,计算、存储、云平台都是数字经济基础设施的一个标配的组件。

同时 AI 大模型的落地应用,也为存力带来全新的挑战。对于秉持投喂数据越多,结果越精准的工作原理的大模型而言,决定着大模型训练存在深度学习网络层数多、连接多的特点。同时数据也呈现出多源、多格式,类型复杂、服务协议多样等多模态特征。这也要求存力需具备极致容量和极致性能。正如武汉光电国家研究中心吴非教授所言:新型数据中心的八大枢纽和十大集群带来的最大的特点在于集成化,对存力最大的挑战是一个混合调度布局的问题。

而且随着信息化、数字化转型进程的加快,海量数据持续更新涌现。据 IDC 统计,2026 年中国数据规模将达 56.16ZB,年均增速位居全球第一。虽然这催化了数据中心规模的扩张,但也对存储集群的持续服务能力提出需求。中国计算机行业协会信息存储与安全专委会秘书长阳小珊表示:虽然新型数据中心的规模愈发庞大,其部件也越来越多,安全性越来越差,这很可能导致结果呈指数级下降。

同时随着数据中心规模不断提升,数据中心能耗问题愈发凸现。而在数据中心中,需要大量数据吞吐、调用数据的存储系统,其能耗占比就高达 35%。可见提升存储效率,已经成为发展绿色算力的关键。

可见,对于底层数据基础设施的需求正在发生根本性改变。面对数据的挑战,构建先进的存力底座,保证存算协同发展,正在成为行业共识。

一体化存力方案,打造绝佳数据底座

近期,「数字中国万里行-西部 (重庆) 科学城先进数据中心暨曙光存储一体化存力方案发布」活动在重庆举办。全国政协委员、中国科学院计算技术研究所研究员张云泉、武汉光电国家研究中心吴非教授、中国计算机行业协会信息存储与安全专委会秘书长阳小珊、中国 E 企研究院创始人张广彬等专家莅临出席,共同见证曙光存储一体化存力方案发布。

从左至右分别为:张广彬、阳小珊、吴非、张新凤

曙光存储一体化存力方案提出场景融合一体化、数据联邦一体化、生命周期一体化、数据服务一体化、数据安全一体化、数据绿色一体化的「六个一」先进理念,为存算协同发展提供了新思路。

其中面对多模态数据样本,曙光存储提出异构融合解决方案。通过支持全类别存储协议,实现多协议数据在多场景下的智能适配融合,为不同计算场景的 AI 提供支持。

而面对深度学习网络层数多、连接多的痛点,曙光存储不久前发布的业内首创 XDS 加速技术,可实现智能芯片以直接数据访问的方式,提高训练过程中数据集的加载及处理速度。XDS 技术内嵌 ParaBuffer 加速引擎,在计算节点与存储系统之间构造多级高速缓存池,将系统整体 I/O 性能提升数倍,将训练时间由数十天降低至几天。

此外 XDS 加速技术支持多种类型、异构智能芯片的快速读写,大幅提升大模型数据 IO 速度,提高数据样本的元数据操作,最大程度缩短 Checkpoint 写时间,从而整体缩短训练时间。同时曙光存储还发挥全栈自研能力,充分释放 NVMe 全闪优势,实现 NVMe 全闪节点+100Gb 高速网络的极致性能,给计算集群提供接近线速的数据访问带宽,大大提升计算效率。

面对存储集群持续服务能力,曙光存储的提出数据安全一体化理念,通过四级可靠性机制:部件级、节点级、系统级和方案级层层深入,实现从数据存储层、数据计算层、数据处理及应用层的全链路安全防护,保障存储集群能够稳定支持企业客户 AI 大模型开发、调优、上线全流程,高效完成训练任务。

曙光存储还积极推动构建存储的生态安全性,张新凤表示:曙光存储希望能够协助健全整个存储的产业生态,能够实现存储从人才的储备,到上下游的健康持续的发展。

此外,针对大模型落地面临能耗和性能难平衡的问题,曙光存储为数据中心打造「存算一栈式」全液冷整体解决方案。不仅搭载业界首款液冷存储系统,显著降低关键部件工作温度,综合降低 PUE 值。还通过软硬协同下数据压缩和硬盘分区休眠,进一步降低整体功耗,在保障训练性能的同时,节省能源成本。

作为国内为数不多的拥有存储系统全栈自研实力的厂商之一,曙光存储已经为国内某大模型头部企业,提供了一体化存储解决方案,带来增效降本、可靠安全的存储方案,真正意义上补齐 AI 大模型落地应用这一木桶中的短板。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值