存力升级按下生成式 AI 加速键

最新推荐文章于 2024-06-27 16:01:16 发布

36kr科技

最新推荐文章于 2024-06-27 16:01:16 发布

阅读量46

点赞数

文章标签：人工智能深度学习机器学习

本文链接：https://blog.csdn.net/2301_76581622/article/details/133354410

版权

自 ChatGPT 横空出世，由生成式 AI 引发的热潮就此展开。面对生成式 AI 这把科技革命的金钥匙，国内厂商也是跃跃欲试，短短地几个月时间里，国内已有近百家 AI 大模型涌现市场。

从上半年生成式 AI 和通用大模型百花齐放，到下半年众多垂直大模型也开始奋起直追。可见，国内厂商正纷纷选择自身擅长的赛道起跑，加入这场激烈的大模型之争。这不仅在业内催生出以模型为核心提供服务的商业模式，更推动大模型正式从理论化、工程化，发展到向深向实的落地应用。

「木桶效应」凸显，存算协同发展成为行业共识

目前，行业内对 AI 基础底座算力和 AI 推动力量算法十分关注。但作为 AI 算法「饲料」的数据，其庞大的存储需求却未受到重视。据统计，预计到 2025 年，我国将有超过 420EB 的巨大存储缺口亟待补充。

庞大存储缺口也预示着大模型训练的发展已经进入第三阶段。在第一阶段，由于模型和数据量较少，发展重点聚焦于单机算法效率和算力性能的提升，数据存储也多为本地内存或数据盘。随着模型和数据量的增加，推动发展进入第二阶段，此时重点聚焦与多机算法效率和算力性能的提升，同时鉴于训练需要高效地数据共享需求，数据存储也采用商用网络存储。

而伴随大模型的兴起，训练规模与机器部署规模都大幅提升，发展正式进入第三阶段，算力、算法、数据正式形成木桶效应。此时企业对存储的需求将不再是「有即可」，而是需要通专业的存储技术二次开发整个存储体系，以此快速提升计算资源利用率。否则面对海量的数据，不仅要面对高昂的存储成本，更难以实现在同一平台上的多业务并行训练。中科曙光存储事业部副总经理张新凤表示：未来 AI 将成为数字经济基础设施的标配，计算、存储、云平台都是数字经济基础设施的一个标配的组件。

同时 AI 大模型的落地应用，也为存力带来全新的挑战。对于秉持投喂数据越多，结果越精准的工作原理的大模型而言，决定着大模型训练存在深度学习网络层数多、连接多的特点。同时数据也呈现出多源、多格式，类型复杂、服务协议多样等多模态特征。这也要求存力需具备极致容量和极致性能。正如武汉光电国家研究中心吴非教授所言：新型数据中心的八大枢纽和十大集群带来的最大的特点在于集成化，对存力最大的挑战是一个混合调度布局的问题。

而且随着信息化、数字化转型进程的加快，海量数据持续更新涌现。据 IDC 统计，2026 年中国数据规模将达 56.16ZB，年均增速位居全球第一。虽然这催化了数据中心规模的扩张，但也对存储集群的持续服务能力提出需求。中国计算机行业协会信息存储与安全专委会秘书长阳小珊表示：虽然新型数据中心的规模愈发庞大，其部件也越来越多，安全性越来越差，这很可能导致结果呈指数级下降。

同时随着数据中心规模不断提升，数据中心能耗问题愈发凸现。而在数据中心中，需要大量数据吞吐、调用数据的存储系统，其能耗占比就高达 35%。可见提升存储效率，已经成为发展绿色算力的关键。

可见，对于底层数据基础设施的需求正在发生根本性改变。面对数据的挑战，构建先进的存力底座，保证存算协同发展，正在成为行业共识。

一体化存力方案，打造绝佳数据底座

近期，「数字中国万里行-西部 (重庆) 科学城先进数据中心暨曙光存储一体化存力方案发布」活动在重庆举办。全国政协委员、中国科学院计算技术研究所研究员张云泉、武汉光电国家研究中心吴非教授、中国计算机行业协会信息存储与安全专委会秘书长阳小珊、中国 E 企研究院创始人张广彬等专家莅临出席，共同见证曙光存储一体化存力方案发布。

从左至右分别为：张广彬、阳小珊、吴非、张新凤

曙光存储一体化存力方案提出场景融合一体化、数据联邦一体化、生命周期一体化、数据服务一体化、数据安全一体化、数据绿色一体化的「六个一」先进理念，为存算协同发展提供了新思路。

其中面对多模态数据样本，曙光存储提出异构融合解决方案。通过支持全类别存储协议，实现多协议数据在多场景下的智能适配融合，为不同计算场景的 AI 提供支持。

而面对深度学习网络层数多、连接多的痛点，曙光存储不久前发布的业内首创 XDS 加速技术，可实现智能芯片以直接数据访问的方式，提高训练过程中数据集的加载及处理速度。XDS 技术内嵌 ParaBuffer 加速引擎，在计算节点与存储系统之间构造多级高速缓存池，将系统整体 I/O 性能提升数倍，将训练时间由数十天降低至几天。

此外 XDS 加速技术支持多种类型、异构智能芯片的快速读写，大幅提升大模型数据 IO 速度，提高数据样本的元数据操作，最大程度缩短 Checkpoint 写时间，从而整体缩短训练时间。同时曙光存储还发挥全栈自研能力，充分释放 NVMe 全闪优势，实现 NVMe 全闪节点+100Gb 高速网络的极致性能，给计算集群提供接近线速的数据访问带宽，大大提升计算效率。

面对存储集群持续服务能力，曙光存储的提出数据安全一体化理念，通过四级可靠性机制：部件级、节点级、系统级和方案级层层深入，实现从数据存储层、数据计算层、数据处理及应用层的全链路安全防护，保障存储集群能够稳定支持企业客户 AI 大模型开发、调优、上线全流程，高效完成训练任务。

曙光存储还积极推动构建存储的生态安全性，张新凤表示：曙光存储希望能够协助健全整个存储的产业生态，能够实现存储从人才的储备，到上下游的健康持续的发展。

此外，针对大模型落地面临能耗和性能难平衡的问题，曙光存储为数据中心打造「存算一栈式」全液冷整体解决方案。不仅搭载业界首款液冷存储系统，显著降低关键部件工作温度，综合降低 PUE 值。还通过软硬协同下数据压缩和硬盘分区休眠，进一步降低整体功耗，在保障训练性能的同时，节省能源成本。

作为国内为数不多的拥有存储系统全栈自研实力的厂商之一，曙光存储已经为国内某大模型头部企业，提供了一体化存储解决方案，带来增效降本、可靠安全的存储方案，真正意义上补齐 AI 大模型落地应用这一木桶中的短板。

36kr科技

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
存力升级按下生成式 AI 加速键

自 ChatGPT 横空出世，由生成式 AI 引发的热潮就此展开。面对生成式 AI 这把科技革命的金钥匙，国内厂商也是跃跃欲试，短短地几个月时间里，国内已有近百家 AI 大模型涌现市场。从上半年生成式 AI 和通用大模型百花齐放，到下半年众多垂直大模型也开始奋起直追。可见，国内厂商正纷纷选择自身擅长的赛道起跑，加入这场激烈的大模型之争。这不仅在业内催生出以模型为核心提供服务的商业模式，更推动大模型正式从理论化、工程化，发展到向深向实的落地应用。
复制链接

扫一扫