deepspeed&zero及大模型显存占用

最新推荐文章于 2024-10-10 11:54:20 发布

Caleb_X

最新推荐文章于 2024-10-10 11:54:20 发布

阅读量596

点赞数 12

文章标签：人工智能

本文链接：https://blog.csdn.net/Caleb_X/article/details/141494491

版权

我们先来看模型训练过程中的显存占用，大模型的显存占用主要分布在两个地方：

1. 模型状态维护上

2. 激活值

这是ZeRO的论文：https://arxiv.org/pdf/1910.02054

先来看下混合精度训练, 根据ZeRO的论文，混合精度训练（Mixed-Precision Training）是当前训练大模型的SOTA的方式。这个方式上：

* 模型参数，及参与运算后计算出的激活值，以及反向传播时候的梯度值等，全部都是以fp16来存储。

* 模型梯度算出来之后，要用梯度来更新模型参数的时候，会用fp32来进行更新，也就是说，原始的参数有一份一直存着的fp32的副本。然后一次迭代的流程应该就是（猜测）：

* fp32的参数副本，转一份为fp16的参数

* fp16的参数参与运算，算出fp16的激活值，以及fp16的梯度

* fp16的梯度，转为fp32的梯度

* fp32的梯度被用到更新fp32参数的过程中

基于上述内容，来看

先来看第一块儿：模型状态维护

1. 参与训练forward及backward过程的部分：

模型参数本身，例如模型大小是7B，用fp16/bf16一个参数2个字节

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Caleb_X

关注关注

12
点赞
踩
17

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

LLM-分布式训练工具01-DeepSpeed：ZeRO系列【将显存优化进行到底】

u013250861的博客

06-16

860

目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU + PyTorch + Megatron-LM + DeepSpeed。前者由Google主导，由于TPU和自家云平台GCP深度绑定，对于非Googler来说，只可远观而不可把玩，后者背后则有NVIDIA、Meta、MS大厂加持，社区氛围活跃，也更受到群众欢迎。

PTMs：大模型预训练技巧之ZeRO训练优化技术(DeepSpeed库-减少参数的冗余+优化通信+本质是时间换空间)的简介(四大核心技术(分布式训练/模型分片/梯度累积/内存优化)+ZeRO四个版本(

近期请国内外头部出版社可尽快私信博主！——心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，谦虚，自律，反思，成长，还算是比较正能量的博主，公益免费传播……内心特别想在AI界做出一些可以推进历史进程影响力的东西(兴趣使然，有点小情怀，也有点使命感呀)…

06-10

1318

PTMs：大模型预训练技巧之ZeRO训练优化技术(DeepSpeed库-减少参数的冗余+优化通信+本质是时间换空间)的简介(四大核心技术(分布式训练/模型分片/梯度累积/内存优化)+ZeRO四个版本(优化器状态分片→梯度分片→参数分片→综合)、使用方法、案例应用之详细攻略目录相关文章相关论文 ZeRO训练优化技术(DeepSpeed库)的简介 ZeRO训练优化技术的使用方法相关文章 PTMs：大模型预训练技巧之ZeRO训练优化技术(DeepSpee

参与评论您还未登录，请先登录后发表或查看评论

大模型分布式训练之DeepSpeed优化器并行(ZeRO)原理

David_house的博客

08-01

1474

由于大模型参数量非常庞大，所以我们常常需要用到分布式训练来解决训练过程中计算资源不足的问题，现在也出现了很多大模型相关的分布式训练框架，但是使用的比较多的还是deepspeed的数据并行，那么deepspeed是怎么实现数据并行的呢。

Deepspeed Zero(DP)

是云就要飞的博客

01-18

1715

如：优化器中使用的随机梯度下降算法SGD中，更新参数的公式：参数 = 参数 - 学习率 * 梯度。

详解 DeepSpeed Zero 的各个 Stage 状态及日常使用

CK的博客

04-04

4130

通过运行发现，如果我们的模型本身占用的显存不大，比如选用了较小参数模型，那么绝大部分显存是被前向传播过程中产生的激活值所占用，这是很好理解的，激活内存用于存储神经网络在前向传播过程中计算的中间激活值。的设置，在每次进行反向传播的过程中，梯度被平均放在了各个设备上，在做梯度下降的过程中，会对梯度打包成一个个 chunk ，再进行梯度下降，当然这样做的原因就在于提高效率，但是当打包的尺寸太大时，也会导致显存占用的增加，控制这个打包尺寸的参数可以通过修改。相反，在前向传递中，将保存输入元组和函数参数。

大模型训练如何节省显存 - DeepSpeed ZeRO

月亮不知道的博客

04-17

1099

训练大模型需要巨大的资源，单卡显存已经越来越难以满足存放整个模型，因此诞生了大模型训练技术，典型的如 DeepSpeed ZeRO 和 FairScale 的完全分片数据并行（Fully Sharded Data Parallel, FSDP）技术，其允许在数据并行进程之间分片模型的参数、梯度和优化器状态，并同时仍然保持数据并行的简单性。DeepSpeed的Zero Redundancy Optimizer（ZeRO）通过在多个GPU之间分割模型的权重、梯度和优化器状态，显著减少了每个GPU所需的内存量。

DeepSpeed之ZeRO系列：将显存优化进行到底

人工智能曾小健

02-15

1976

目前训练超大规模语言模型主要有两条技术路线：TPU + XLA + TensorFlow/JAX 和 GPU +。前者由Google主导，由于TPU和自家云平台GCP深度绑定，对于非Googler来说，只可远观而不可把玩，后者背后则有NVIDIA、Meta、MS大厂加持，社区氛围活跃，也更受到群众欢迎。上面提到的DeepSpeed的核心是ZeRO(Zero Redundancy Optimizer)，简单来说，它是一种显存优化的数据并行(data parallelism, DP)方案。

大模型并行训练指南：通俗理解Megatron-DeepSpeed之模型并行与数据并行

热门推荐

结构之法算法之道

08-24

2万+

BLOOM 的模型架构与GPT3非常相似，只是增加了一些改进，本文稍后将对此进行讨论。该模型是在Jean Zay上训练的，Jean Zay 是由 GENCI 管理的法国政府资助的超级计算机，安装在法国国家科学研究中心 (CNRS) 的国家计算中心IDRIS。训练所需的算力由 GENCI 慷慨捐赠给本项目 (捐赠号 2021-A0101012475)。GPU: 384 张 NVIDIA A100 80GB GPU (48 个节点) + 32 张备用 GPU。

16.大模型分布式训练框架 Microsoft DeepSpeed

YPeng_Gao的博客

06-16

1624

DeepSpeed 是一个开源深度学习优化库，旨在提高大模型训练和运行效率，以支持数千亿~万亿参数的超大语言模型。

LLMs之Transformer：深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成，训练阶段/推理阶段)、耗时估计(计算量占用构成，训练阶段/推理阶段)之详细攻略

05-15

1473

LLMs之Transformer：深度剖析类Transformer的大语言模型中的显存占用估计(显存占用构成，训练阶段/推理阶段)、耗时估计(计算量占用构成，训练阶段/推理阶段)之详细攻略目录 LLMs空间计算—显存占用估计 LLMs耗时计算—计算时间估计： LLMs空间计算—显存占用估计 Transformer模型的计算量主要集中在权重矩阵乘法计算。计算量分析表明，权重矩阵乘法的计算量相较于其他操作可以忽略不计。对于一个token，每个模型参数，需要进行2次浮点数运算。显

基于Keras的U-Net模型在图像分割与计数中的应用

深度学习实战训练营，一起交流探索深度学习

10-04

1562

网络结构优化：项目基于经典的U-Net模型进行改进，采用了更深的网络层次结构，使模型能够在多尺度上捕捉到图像中的细节信息。特别是针对医学图像分割，项目通过增加卷积层数和引入Dropout层来增强模型的特征提取能力，并有效防止过拟合，从而提高模型在训练数据较少情况下的表现。项目中采用了he_normal初始化器和relu激活函数组合，使得网络在训练时能够更快地收敛，降低梯度消失的风险。自定义数据增强策略：在中实现了一个自定义的图像增强类。

毒蘑菇检测数据集 9200张 14类毒蘑菇带标注 voc yolo

阿利同学的博客

10-07

1162

毒蘑菇检测数据集 9200张 14类毒蘑菇带标注 voc yolo

大模型1-本地部署实现交互问答

qq_42755230的博客

10-08

744

在本地部署大模型，并构建问答对话，实现大模型交互问答部署，本文以yuan和qwen为例。

北大对齐团队深度硬核解读：OpenAI o1开启「后训练」时代强化学习新范式

ys707663989的博客

10-06

2054

本文深入探讨了OpenAI o1的技术细节、的实现、合成数据与推理搜索的优化，以及AI安全的新启示，展示了大语言模型在推理能力提升和安全对齐方面的最新进展与未来方向。

线性判别器LDA