实现 AI 大语言模型的关键在于超高性能存储能力

YAN_RONG_TECHNOLOGY

于 2023-06-27 11:47:41 发布

阅读量215

点赞数

文章标签：人工智能高性能全闪存储文件存储大数据

本文链接：https://blog.csdn.net/YAN_RONG_TECHNOLOGY/article/details/131414099

版权

最近 IT 分析领域的核心议题为大语言模型（LLM）机器学习和生成式AI（GAI）。去年11月底 ChatGPT 聊天机器人的发布在全球掀起了巨大的波澜，一周内用户数达到 100 万，类似的基础模型应用如谷歌的 Bard 和亚马逊的 Titan 也同样掀起了热潮。

生成式 AI 具有理解文本请求并输出有效的答案的能力，有望应用于整个企业和公共部门的 IT 领域，从而实现更好的搜索和分析质量。未来十年，AI 的普遍使用有可能取代或者提高各行各业知识工作者的生产力，诸如客服中心、内部销售人员、会计师、律师和金融分析师等职业。生成式 AI 热度的快速升温将对整个 IT 行业产生影响，Forrester，Gartner 等分析师和研究机构正在研究和预测其后续冲击力。部分数据存储行业将凭借生成式 AI 获取巨大的潜在销售收益。近日，在 William Blair 发布的《生成式 AI：自动化的新前沿》报告中，基于生成式 AI 的基础设施提供了全面的分析，具体建议如下：

硬件部分

DRAM ：运行大语言模型用于训练和推理的 CPU/GPU 服务器需求日益凸显，包括用于 GPU 的高带宽内存 HBM。

PCIe ：PCIe 4 和 5.0 组件供应商应该为需求激增的持续性做好准备。

CXL ：大语言模型将为 CXL 2.0 内存池提供强有力的支持，其中包括 CXL 硬件供应商，这意味着 DRAM 扩展器、CXL 交换机和其他组件厂商都将从中获益。

NAND 和 SSD：需求必将越来越多，关键点集中在 NVMe 访问，PCIe 4.0 和 5.0 连接以及性能和容量的组合。这表明 QLC 和高层数 TLC NAND 也将因此受益，所有 NAND 晶圆厂和 SSD 供应商都应该关注这方面的市场需求。

存储阵列：市场需要存储系统具备高容量和超高 IO 能力。AI / ML 集群将需要 PB 级别的容量，大语言模型训练的运行需要配合高速数据集读取和检查点写入，这需要硬件和软件可提供并行访问，进行 LLM 推理的运行将需要高读访问速率，并行数据传递路径至处理器。大语言模型的推理运行需要高读取访问率，以及到处理器的并行数据传输路径。对于 AI 大模型训练场景，使用全 NVMe 闪存并且支持 GPUDirect Storage 技术的分布式文件存储厂商能很好地顺应市场趋势。

软件部分

专注于 CXL 的软件：MemVerge 和 Unifabrix 等供应商会看到其产品的热度将大幅持续上升。

数据分析：供应商需要抓紧时间引入大语言模型前端。

数据库、数据仓库和智能湖仓：供应商需要支持大语言模型所需的向量嵌入。向量数据库的支持将变得更加重要。为用户提供聊天机器人前端的需求已经非常强烈，这将使非数据科学家和非资深的 SQL 用户能够运行复杂的分析。他们还有机会找到 ETL（提取，转换和加载）过程，将选定的数据快速输出到大语言模型进行训练和推理运行。

数据管理：可以通过应用大语言模型技术来分析自己的数据集，并为 AI 流程提供数据以扩大业务规模。

高速阵列：供应商可以将自己的软件迁移到运行生成式 AI 模型的公有云上，借此支持那些采用本地混合云/公有云方式来运行大语言模型的客户。

横向扩展并行文件系统：部分供应商在这方面处于有利地位，其现有客户正在应用生成式 AI 技术，新客户则迫切需要快速、大容量的文件访问软件，因此这部分业务的空间同样相当可观。

间接受益者方和未受影响方情况

云文件服务供应商：这类厂商可以使用云端存储的数据集为大语言模型提供数据，但数据将需要从其底层对象库转移至更快的访问存储介质，类似于某种形式的 ETL。但也不排除云服务商会提供类似于 GPUDirect 的方式，将数据从 S3/Azure Blob 等直接传递至 GPU 实例。

数据编排器：帮助客户编排大语言模型所需要的数据，借此获取间接收益。

磁盘驱动器阵列：这类产品迭代速度太慢，只能作为闪存主存储的次要存储使用。

生命周期管理：供应商需要研究聊天机器人界面如何帮助用户提高工作效率。

安全供应商：聊天机器人和其他人工智能技术在检测和响应恶意软件以及处理用户交互方面更有效。

软件定义存储: 在生成式 AI 的浪潮下，软件定义存储供应商需要满足高性能访问需求才有可能分得额外业务空间。

磁带系统：归档系统太慢，无法与大语言模型提供数据，但在市场上仍有其生存空间。

Web 3：此类存储速度太慢，在大语言模型的世界中没有太大发挥余地。

以上信息在 William Blair 发布的《生成式 AI：自动化的新前沿》报告中，总结关键点即 ChatGPT、大语言模型给基础设施带来很大的变化。训练巨量模型需要巨大的算力，随着数据集和模型规模不断增加，应用程序载入数据所花费的时间变得越长，进而影响了应用程序的性能，缓慢的 I/O 严重拖累 GPU 的强大算力。如何大幅提升 GPU 载入大型数据集的速度将是计算和存储系统共同面临的挑战。焱融科技是最早进入 AI 领域的分布式文件存储厂商，在 AI+行业场景有成熟的落地经验。也正如报告所预测，焱融科技敏锐地把握市场趋势，其基于软件定义存储自主研发的文件存储系统 YRCloudFile 早已完成对 NVIDIA GPUDirect Storage（GDS）适配，实现以直接内存的存取方式，将数据传输至 GPU 内存上，能够更好地管理数据路径，使数据在应用程序和存储之间通过更短、更有效的路径传输，显著降低 I/O 延迟，提升数据带宽，使支持 GDS 的应用程序能够充分释放 GPU 计算能力，为人工智能和机器学习（AI/ML）以及数据分析等业务加速。

近日，赛迪顾问重磅发布《中国分布式存储市场研究报告 2023 》，报告中对焱融科技分布式存储产品 YRCloudFile 的评价如下：

焱融科技自研的通用分布式文件系统 YRCloudFile 既具备传统并行存储的高性能，又可作为企业关键业务和新兴业务需求的存储系统。在 Al、智能汽车、高性能计算等领域具有较强实力，行业竞争力突出。

作为企业级存储，提供 DataLoad、冷热数据自动分层、大数据支持等数据全生命周期管理功能和方案; 支持200Gb/400Gb Infiniband 网络及 NVIDIA GPUDirect ，产品性能行业领先。

2022 年，焱融追光全闪文件一体机单存储节点达到 40GB/s+ 带宽和 200万+ IOPS 性能，并应用于人工智能、智能汽车、智能制造、教育等行业生产环境中，为 AI、大模型训练、企业级用户构建高性能存储平台。

本文观点引用报告原文：

https://blocksandfiles.com/2023/05/25/chatgpt-llms-and-storage/

焱融科技发布国内首个NVIDIA DGX A100 + 全闪存储参考架构白皮书

为 GPU 而来，焱融科技推出新一代全闪分布式文件存储产品

焱融全闪 X NVIDIA InfiniBand：打造 AI 时代 GPU 计算的高性能存储技术

智谱AI联合焱融打造A100+全闪存储的大规模AI架构

YAN_RONG_TECHNOLOGY

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
实现 AI 大语言模型的关键在于超高性能存储能力

训练巨量模型需要巨大的算力，随着数据集和模型规模不断增加，应用程序载入数据所花费的时间变得越长，进而影响了应用程序的性能，缓慢的 I/O 严重拖累 GPU 的强大算力。，实现以直接内存的存取方式，将数据传输至 GPU 内存上，能够更好地管理数据路径，使数据在应用程序和存储之间通过更短、更有效的路径传输，显著降低 I/O 延迟，提升数据带宽，使支持 GDS 的应用程序能够充分释放 GPU 计算能力，为人工智能和机器学习（AI/ML）以及数据分析等业务加速。供应商需要支持大语言模型所需的向量嵌入。
复制链接

扫一扫