ZeRO论文阅读

最新推荐文章于 2024-07-06 00:29:33 发布

0mit

最新推荐文章于 2024-07-06 00:29:33 发布

阅读量1.2k

点赞数 33

文章标签： transformer 自然语言处理论文阅读论文笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/omit250/article/details/138028700

版权

一.前情提要

1.本文理论为主，并且仅为个人理解，能力一般，不喜勿喷

2.本文理论知识较为成体系

3.如有需要，以下是原文，更为完备

Zero 论文精读【论文精读】_哔哩哔哩_bilibili

二.正文

1.前言

①为什么用该技术：当模型很大，计算单元存储不下的时候，将其分散开来，需要的时候调用即可，该技术则是应用于此

②简介：ZeRO是一种用于大规模深度学习模型训练的优化技术，旨在解决在训练大型模型时遇到的内存限制和通信开销等问题（简单理解：加速transformer）

2.补充说明

①模型并行：

模型并行是一种用于训练大型神经网络的分布式计算策略，旨在将模型参数分割并分配到不同的设备上进行计算。这种方法有助于克服单个设备内存的限制，并提高训练大型模型的效率。

②通讯

GPU通信指的是在多个GPU之间进行数据传输和通信的过程。在深度学习中，通常会使用多个GPU来加速训练过程，这就需要在GPU之间有效地传输模型参数、梯度和其他相关数据。

③混合精度和半精度是深度学习中用于提高训练效率和性能的技术，通过减少模型参数和计算过程中的精度要求来降低计算成本。以下是对混合精度和半精度的解释：

1. 半精度

半精度是一种表示数值的方法，使用16位浮点数来存储数据。

2. 混合精度

混合精度是一种结合了不同精度的计算和存储方案。

3.ZeRO-dp优化的细节

（内存用在什么地方：①保存模型②保存梯度③保存优化器里的状态④中间值）

①核心算法是切开放在不同地方---->和参数服务器一样

②使用半精度来训练（fp16）但权重是fp32(避免一堆极小数字累加，可能仍然为0)再转化为fp16

③对于每个w状态只拷贝一份，避免重复-------->参与服务器的思想-------->内存使用下降

4.ZeRO-R优化的细节

①不同于计算来换空间，这里是带宽来换空间

②对于额外的临时缓存：设置固定大小

③对于内存碎片：不断的整理

5.具体实施(假定为两块卡，一个层)

①Pos（zero1）

②Pg（zero2）

③Pp（zero3）

使用后呈现的结果：

6.如何降低中间变量

①切分层（主要作用于模型并行）

PA:

②buffer

类比：在发送数据上，等待足够多的再发送，就像把包裹塞满卡车

③内存整理

（上述都是使用在上层）

7.在megantron上

①实验主图

②超线性性能增长

关注

33
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
ZeRO论文阅读

在深度学习中，通常会使用多个GPU来加速训练过程，这就需要在GPU之间有效地传输模型参数、梯度和其他相关数据。的技术，通过减少模型参数和计算过程中的精度要求来降低计算成本。这种方法有助于克服单个设备内存的限制，并提高训练大型模型的效率。份，避免重复-------->参与服务器的思想-------->内存使用下降。模型并行是一种用于训练大型神经网络的分布式计算策略，旨在将模型参数。的时候，将其分散开来，需要的时候调用即可，该技术则是应用于此。半精度是一种表示数值的方法，使用。地方---->和参数服务器一样。
复制链接

扫一扫

0mit CSDN认证博客专家 CSDN认证企业博客

码龄1年

39: 原创

9923: 周排名

2万+: 总排名

3万+: 访问

: 等级

1340: 积分

906: 粉丝

928: 获赞

23: 评论

439: 收藏

私信

关注

热门文章

最新评论

C语言:学生成绩管理系统（含源代码）
也dei可可西吖: 为啥显示有错误第33行
期末C语言单选题100道（含答案）
普通网友: 感谢大佬分享好文，学到了不少新知识，支持大佬，期待大佬持续输出优质文章！【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
期末C语言单选题100道（含答案）
2401_85112225: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，感谢博主的分享，文章思路清晰【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
C语言期末概念题100道
普通网友: 你的博客内容深入浅出，总是让我不再感到学习的困难，每一篇博文都是我学习的宝库。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
C语言：结构体和共用体
秋说: 博主你好，感觉你的文章质量很好，这边有一个合作，可以私信我或添加我文章底部联系方式哈~

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。