LLM-分布式训练工具01-DeepSpeed:ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于,GPU显存不够,CPU内存来凑】

本文介绍了DeepSpeed如何通过ZeRO技术优化大规模模型训练,允许在有限的GPU资源下进行训练。DeepSpeed的ZeRO Stage 1到3分别将优化器状态、梯度和模型参数分片到GPU,甚至利用CPU和NVMe进行offload,减少显存需求。文章提供了安装和配置DeepSpeed的基本步骤,强调了在选择Stage策略时需要平衡显存和时间开销。此外,还讨论了ZeRO-Inference、内存估计和使用体验,提醒读者在使用DeepSpeed时要根据硬件资源和模型需求进行适当调整。
摘要由CSDN通过智能技术生成

现在的模型越来越大,动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如,一块RTX2090的10G显存,光把模型加载上去,就会OOM,更别提后面的训练优化。

作为传统pytorch Dataparallel的一种替代,DeepSpeed的目标,就是为了能够让亿万参数量的模型,能够在自己个人的工作服务器上进行训练推理。

本文旨在简要地介绍Deepspeed进行大规模模型训练的核心理念,以及最基本的使用方法。更多内容,笔者强烈建议阅读HuggingFace Transformer官网对于DeepSpeed的教程:

Transformer DeepSpeed Integration

ZeRO是一种针对大规模分布式深度学习的新型内存优化技术。

在DeepSpeed下,ZeRO训练支持了完整的ZeRO Stages1, 2和3,以及支持将优化器状态、梯度和模型参数从GPU显存下沉到CPU内存或者硬盘上,实现不同程度的显存节省,以便训练更大的模型。

  • 1
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值