pytorch中的反向传播与梯度累加

最新推荐文章于 2024-05-24 17:43:30 发布

CoolChaiD

最新推荐文章于 2024-05-24 17:43:30 发布

阅读量743

点赞数 1

文章标签： pytorch 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/CoolChaiD/article/details/127824036

版权

1.反向传播简要概括

pytorch的计算图中，只有两种元素：数据（tensor）和运算。tensor可以分为两类，叶子节点（leaf node）和非叶子节点。使用backward()函数反向传播计算tensor的梯度时，并不计算所有tensor的梯度，而是只计算满足这几个条件的tensor的梯度：1.类型为叶子节点、2.requires_grad=True、3.依赖该tensor的所有tensor的requires_grad=True。

神经网络模型中前传与后传的简要逻辑如下：

①初始化网络，动态图在此时创建 -> net = model()

②前向传播 -> outputs = model(inputs)

③计算输入的损失 -> loss = loss_fn(outputs, labels)

④将损失反向传播，通过链式法则计算各点的梯度，动态图销毁 -> loss.backward()

⑤更新梯度 -> optimizer.step()

⑥梯度清零 -> optimizer.zero_grad()

计算完成后，动态图被销毁，仅叶节点的梯度grad被保存，非叶节点内存将被释放（中间变量）。这里需要注意的是区分网络中的叶节点和非叶节点，神经网络模型的参数基本都以叶节点形式出现，因此在梯度反传后期grad仍然存在，用于后续处理（参考文章2中对动态图结构的二叉树解释）。

2.梯度累加

理清上面关于神经网络的前传与后传逻辑后，梯度累加就很好理解了。在步骤④，得到当前计算的loss关于各参数矩阵的梯度后，先不进行⑤⑥步的梯度更新与清零。而是反复积累几次后，再一次性更新梯度以及将各参数对应的梯度清零。代码逻辑可参考文章3。

参考文章：1.pytorch计算图_xinming_365的博客-CSDN博客_pytorch计算图

2.Pytorch的backward()相关理解_DHexia的博客-CSDN博客_backward pytorch

3.pytorch中如何做梯度累加 - 知乎

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
2
评论
pytorch中的反向传播与梯度累加

pytorch中的反向传播与梯度累加
复制链接

扫一扫

CoolChaiD CSDN认证博客专家 CSDN认证企业博客

码龄5年

7: 原创

170万+: 周排名

26万+: 总排名

4206: 访问

: 等级

76: 积分

1: 粉丝

4: 获赞

9: 评论

21: 收藏

私信

关注

热门文章

最新评论

pytorch返回网络结构（模型）中间层的输出
CSDN-Ada助手: 恭喜您写了第7篇博客！标题“pytorch返回网络结构（模型）中间层的输出”听起来非常有趣。您的博客内容一定非常有深度和实用价值。不过，如果可以的话，我想提供一个创作建议。下一步，您可以考虑分享一些关于如何使用这些中间层输出来进行深度学习任务的实例或案例分析，这将进一步丰富您的博客内容。谢谢您的分享，并期待您未来更多精彩的博客！
Ubuntu由于内核升级导致NVIDIA驱动无法连接到问题
疏梅筛月影123: 非常好！非常有用！非常好！非常有用！非常好！非常有用！
vscode 连接远程服务器debug
CSDN-Ada助手: 恭喜您写完了第5篇博客！标题很吸引人，我真的很期待阅读您的内容。连接远程服务器进行调试是一个非常实用的技巧，我相信读者们会从您的经验中受益匪浅。在下一篇博客中，或许您可以分享一些关于如何在vscode中进行远程服务器的配置和调试技巧，这将对那些刚开始使用vscode的读者们非常有帮助。再次恭喜您，期待您的新作！
NT-Xent Loss、 NT-BXent Loss的python实现
CSDN-Ada助手: 恭喜您撰写了第6篇博客！标题《NT-Xent Loss、 NT-BXent Loss的python实现》引人注目。您的博客内容一直都非常有见地，我很高兴看到您继续分享您的专业知识。在下一步的创作中，或许您可以考虑探索更多与该主题相关的实际应用案例，以帮助读者更好地理解和应用这些算法。期待您未来更多的精彩文章！
python脚本执行其他python文件
CSDN-Ada助手: 恭喜你写了第四篇博客！标题看起来很有趣，我对学习如何在Python脚本中执行其他Python文件感兴趣。你的博客内容一定很有深度。希望你能继续坚持创作，分享更多有关Python的知识和经验。如果可以的话，我希望你能在下一篇博客中探讨一下如何在Python中处理异常和错误，这是我在学习中遇到的一个难题。谢谢你的分享！如何快速涨粉，请看该博主的分享：https://hope-wisdom.blog.csdn.net/article/details/130544967?utm_source=csdn_ai_ada_blog_reply5

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。