自定义博客皮肤VIP专享

*博客头图：

点击选择上传的图片

格式为PNG、JPG，宽度*高度大于1920*100像素，不超过2MB，主视觉建议放在右侧，请参照线上博客头图

请上传大于1920*100像素的图片！

博客底图：

点击选择上传的图片

图片格式为PNG、JPG，不超过1MB，可上下左右平铺至整个背景

栏目图：

点击选择上传的图片

图片格式为PNG、JPG，图片宽度*高度为300*38像素，不超过0.5MB

主标题颜色：

RGB颜色，例如：#AFAFAF

Hover：

RGB颜色，例如：#AFAFAF

副标题颜色：

RGB颜色，例如：#AFAFAF

预览取消提交

自定义博客皮肤

-+

上一步保存

大海中的游鱼

律白 CSDN认证博客专家 CSDN认证企业博客

码龄10年

23: 原创

11万+: 周排名

185万+: 总排名

5万+: 访问

: 等级

781: 积分

8: 粉丝

50: 获赞

10: 评论

108: 收藏

私信

关注

热门文章

分类专栏

最新评论

大规模分布式训练简介
律白: 是的。准确来说这个阶段不是进行权重调整，而是进行梯度调整。反向阶段完成后，才是优化器进行权重调整。
大规模分布式训练简介
律白: 中间值主要指的是前向算子的output，这些output在训练结束后是不需要保留的，所以称为中间值。如果是推理网络，算子执行完，输出给下一个当完输入后，就可以释放了。但训练网络不同，前向算子的输出要一直保留到反向网络执行时，因为前向算子的输出还是对应反向算子的输入。即前向网络中的中间值的声明周期延长到了反向网络阶段了。
大规模分布式训练简介
海边画家: 在网络中标记少量的算子，前向计算只保留这些被标记的算子的输出结果（激活值），其余前向算子的输出结果直接被释放，这样就可以极大减少激活值消耗的内存。当反向更新梯度需要前向算子的输出时，利用被标记的算子重新计算获取。激活重计算是一个以时间换空间的策略。博主这个我可以认为，是通过类似于检查点的机制，通过标记部分算子，存储他们的输出值，其他算子的输出值我们就直接忽略，在反向传播时，我们利用标记算子，来继续前项传递，求出其余算子的前项输出来进行权重调整吗？
大规模分布式训练简介
海边画家: 想问下博主，神经元的中间值具体指那些，还有反向更新梯度需要前向算子的输出时，利用被标记的算子重新计算获取这句户如何理解，谢谢博主
reduce_scatter 通信
baidu_40392548: all_reduce = ReduceScatter + AllGather

最新文章

大规模分布式训练

关注

文章平均质量分 72

关注数：文章数：3 文章阅读量：10917 文章收藏量：23

作者: 律白

心之所向，素履以往

展开