存储系列:存储和AI大模型关系

一、概述

存储作为AI大模型训练的重要基础设施,贯穿大模型全流程,存储的能力和性能,直接影响大模型训练周期,影响整体成本付出。

目前,受多个因素影响,大模型训练一次耗时很长,少则几天,多则数周,这取决于训练规模,比如Llama2大模型有70B规模,这里的70B指的是参数数量,70B也就是700亿,预训练数据集达到了4.5TB,所以,大模型训练是耗硬件大户,什么GPU算力、内存容量和速率、网络带宽,存储IO和吞吐量,每个环节都影响训练的时长,也就是训练成本。

二、大模型训练过程

大模型训练一般分为如下四个步骤,采集、调试、训练和推理,每个阶段对于存储需求是不同的

①数据采集和清洗 => ②开发调试 => ③模型训练 => ④模型推理

 三、各个阶段的挑战和存储需求

训练阶段

主要动作

主要挑战

存储需求

数据采集和导入

汇集各种数据

  • 海量数据

  • 多种形态的素材文件

  • 小文件

示例:

  1. 各种非结构化数据:比如:LLM训练场景,除了语料数据,可能还有pdf、excel、doc,气象、医疗专用格式数据

  2. 各种半结构化小文本,从10K到100K

  • 支持各种非结构化数据(对象存储)

  • 支持文件协议访问(文件存储)

  • 支持海量数据注入,大容量,高吞吐

  • 横向可扩展(分布式)

开发调试

试验阶段,调测阶段

多人并行调试,效果评估

  • 支持多人并发操作(可共享)

  • 支持POSIX文件操作

模型训练

模型训练

  • 海量小文件读取(IOPS)

  • CKPT频繁写入和恢复(高带宽)

  • 大量CKPT要保存,存储要动态可扩展

  • 海量小文件读操作OPS

  • 超大文件的写入和读出

  • 横向可扩展(分布式)

模型推理

智能体高并发的推理需求

客户端高并发请求,带来存储高并发访问

存储高并发访问、高带宽

拙作:《Ceph存储从入门到突破》

http://t.csdnimg.cn/TrYep

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值