LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

u013250861

已于 2023-08-01 20:22:49 修改

阅读量4.6k

点赞数 1

分类专栏： LLM 文章标签：深度学习人工智能 pytorch

于 2023-06-13 17:17:37 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u013250861/article/details/131192668

版权

LLM 专栏收录该内容

108 篇文章 233 订阅 ¥19.90 ¥99.00

订阅专栏

超级会员免费看

本文介绍了DeepSpeed如何通过ZeRO技术优化大规模模型训练，允许在有限的GPU资源下进行训练。DeepSpeed的ZeRO Stage 1到3分别将优化器状态、梯度和模型参数分片到GPU，甚至利用CPU和NVMe进行offload，减少显存需求。文章提供了安装和配置DeepSpeed的基本步骤，强调了在选择Stage策略时需要平衡显存和时间开销。此外，还讨论了ZeRO-Inference、内存估计和使用体验，提醒读者在使用DeepSpeed时要根据硬件资源和模型需求进行适当调整。

摘要由CSDN通过智能技术生成

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。

作为传统pytorch Dataparallel的一种替代，DeepSpeed的目标，就是为了能够让亿万参数量的模型，能够在自己个人的工作服务器上进行训练推理。

本文旨在简要地介绍Deepspeed进行大规模模型训练的核心理念，以及最基本的使用方法。更多内容，笔者强烈建议阅读HuggingFace Transformer官网对于DeepSpeed的教程：

Transformer DeepSpeed Integration

ZeRO是一种针对大规模分布式深度学习的新型内存优化技术。

在DeepSpeed下，ZeRO训练支持了完整的ZeRO Stages1, 2和3，以及支持将优化器状态、梯度和模型参数从GPU显存下沉到CPU内存或者硬盘上，实现不同程度的显存节省，以便训练更大的模型。

了解本专栏

超级会员免费看

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
LLM-分布式训练工具01-DeepSpeed：ZeRO-1、ZeRO-2、ZeRO-3配置【DeepSpeed的核心就在于，GPU显存不够，CPU内存来凑】

现在的模型越来越大，动辄几B甚至几百B。但是显卡显存大小根本无法支撑训练推理。例如，一块RTX2090的10G显存，光把模型加载上去，就会OOM，更别提后面的训练优化。作为传统pytorch Dataparallel的一种替代，DeepSpeed的目标，就是为了能够让亿万参数量的模型，能够在自己个人的工作服务器上进行训练推理。本文旨在简要地介绍Deepspeed进行大规模模型训练的核心理念，以及最基本的使用方法。
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。