大规模分布式训练简介

律白

已于 2022-05-27 14:11:13 修改

阅读量2k

点赞数

分类专栏：大规模分布式训练文章标签：大规模分布式训练

于 2022-03-20 17:42:14 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/RogersStar/article/details/123617394

版权

大规模分布式训练旨在协调多台机器运行大规模模型，解决模型内存需求超过单张GPU内存的问题。主要策略包括节流（如激活重计算）和开源（如数据并行、模型并行）。每个方案都有其优缺点，实际应用中需结合模型和硬件条件综合考虑。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

曹冲称象

故事一说

古有曹冲称象，为人津津乐道。而“大规模分布式训练”堪称机器学习领域的的“曹冲称象”。
三国时曹操等大臣面临的问题是大象的重量超过了称的极限。如果我们把故事中的对象替换一下：

大象替换成类似GPT3这类的参数超万亿的大模型
称替换成类似GPU-A100,这类的机器学习处理器
重量替换成机器训练大模型所需的内存

那什么是“大规模分布式训练”呢？
翻译翻译

翻译翻译就是：大模型预训练所需的内存超过了单张深度学习处理器的内存。于是机器学习的工程师们纷纷化身曹冲，提出肢解大模型而又不尽量影响模型运行的的方案！

比较尴尬的是，现代工程师们找不到一只可以容纳整个模型的船（也许2077年，nvidia发布A1000或者H1000，就是我们要找的船），于是工程师只好另辟蹊径，拿多杆秤称一头象了。如何协调多杆秤工作，就是一个技术活了。
简而言之：大规模分布式训练的目标是协调多台机器简单高效的运行大规模的模型。

最低0.47元/天解锁文章

博客等级

码龄11年

23
原创

50
点赞

110
收藏

8
粉丝

关注

私信

热门文章

分类专栏

最新评论

大规模分布式训练简介
律白: 是的。准确来说这个阶段不是进行权重调整，而是进行梯度调整。反向阶段完成后，才是优化器进行权重调整。
大规模分布式训练简介
律白: 中间值主要指的是前向算子的output，这些output在训练结束后是不需要保留的，所以称为中间值。如果是推理网络，算子执行完，输出给下一个当完输入后，就可以释放了。但训练网络不同，前向算子的输出要一直保留到反向网络执行时，因为前向算子的输出还是对应反向算子的输入。即前向网络中的中间值的声明周期延长到了反向网络阶段了。
大规模分布式训练简介
海边画家: 在网络中标记少量的算子，前向计算只保留这些被标记的算子的输出结果（激活值），其余前向算子的输出结果直接被释放，这样就可以极大减少激活值消耗的内存。当反向更新梯度需要前向算子的输出时，利用被标记的算子重新计算获取。激活重计算是一个以时间换空间的策略。博主这个我可以认为，是通过类似于检查点的机制，通过标记部分算子，存储他们的输出值，其他算子的输出值我们就直接忽略，在反向传播时，我们利用标记算子，来继续前项传递，求出其余算子的前项输出来进行权重调整吗？
大规模分布式训练简介
海边画家: 想问下博主，神经元的中间值具体指那些，还有反向更新梯度需要前向算子的输出时，利用被标记的算子重新计算获取这句户如何理解，谢谢博主
reduce_scatter 通信
baidu_40392548: all_reduce = ReduceScatter + AllGather

大家在看

最新文章

目录

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。