[论文阅读] ZeRo

最新推荐文章于 2024-11-10 20:25:23 发布

summermoonlight

最新推荐文章于 2024-11-10 20:25:23 发布

阅读量416

点赞数 8

文章标签：论文阅读

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_45034517/article/details/139428194

版权

zero主要用于数据并行

对于大模型来说，内存主要用来保存模型状态，主要有

模型参数，梯度（梯度和模型大小是一样的），优化器状态（adam中需要保存momentum和variance信息）。
所有中间值（gpipe使用重算解决这个问题），临时buffer，内存碎片化

半精度训练：
模型某层的w，和层的输入输出，都使用fp16
例如，Wx = y ，这三者都是fp16

但是有一个问题，fp16通常精度不够，加着加着就炸了，或者，太小的情况一直加都是0。
这个情况在累积权重（不断把梯度的东西加进来）的时候会出现，所以如果权重也是fp16的话，可能加半天都加不动。

所以权重更新使用fp32，也即是权重还有一个fp32的copy，作梯度更新的时候使用fp32，然后转成fp16，再参与前向后向计算。

假设模型n个可学习参数，那存fp16的参数和梯度各需要2n和2n个bytes，（一个fp16需要2个byte，1个byte是8bit），还有fp32的内存是权重，momentum，variance，各需要4n,4n,4n,共12n。

所以计算前向和反向只需要4n个bytes，但是为了更新的时候需要存12n个bytes。

zero 1

12ψ / n，n为多少张卡

summermoonlight

关注

8
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

summermoonlight CSDN认证博客专家 CSDN认证企业博客

码龄6年

185: 原创

22万+: 周排名

2万+: 总排名

14万+: 访问

: 等级

2437: 积分

396: 粉丝

220: 获赞

38: 评论

475: 收藏

私信

关注

热门文章

分类专栏

算法板子 7篇
论文阅读 7篇
linux 1篇
spark 1篇
算法提高课 6篇
洛谷 2篇
CNDB 3篇
PAT 11篇
baoyan 1篇
与编程无关的那些事 1篇
c++ 10篇
springmvc 2篇
数据结构 7篇
CCF CSP 1篇
tensorflow 1篇
spring 6篇
VUE 6篇
javaweb 6篇
网页基础 4篇
杂乱笔记 2篇
python 3篇
我的

最新评论

差分隐私paper
壹伊: 请问Differentially Private and Utility Preserving Publication of Trajectory Data有代码吗
win10修改C:\Users\下用户名为中文的问题
summermoonlight: 重启之后重试
win10修改C:\Users\下用户名为中文的问题
sunyunfei10: 作者你好，我在重命名这步提示“其中的文件夹或文件已在另一程序打开”怎么解决呢
[论文阅读] ZeRo
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。
【论文阅读】High-Dimensional Approximate Nearest Neighbor Search: with Reliable and Efficient DCO
CSDN-Ada助手: 你好，CSDN 开始提供 #论文阅读# 的列表服务了。请看：https://blog.csdn.net/nav/advanced-technology/paper-reading?utm_source=csdn_ai_ada_blog_reply 。如果你有更多需求，请来这里 https://gitcode.net/csdn/csdn-tags/-/issues/34?utm_source=csdn_ai_ada_blog_reply 给我们提。

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。