torch.optim.SGD 和 torch.optim.Adam的区别？

computer_vision_chen

已于 2024-02-24 10:11:00 修改

阅读量1.5k

点赞数 10

分类专栏：机器学习&深度学习笔记文章标签：机器学习深度学习人工智能

于 2024-02-24 10:10:08 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_42864343/article/details/136268243

版权

机器学习&深度学习笔记专栏收录该内容

32 篇文章

订阅专栏

本文对比了深度学习中的两种常用优化器SGD和Adam，介绍了SGD的简单计算和大规模数据集适用性，以及其受噪声影响的缺点；Adam则结合动量和自适应学习率，具有更快收敛和稳定性，但对小批量数据可能不如SGD，适用于复杂网络和非凸优化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

目录

torch.optim.SGD
torch.optim.Adam

Adam优化器和SGD（随机梯度下降）优化器是深度学习中常用的两种优化算法，它们在优化模型参数方面有一些区别。

torch.optim.SGD

SGD优化器是基于随机梯度下降的算法，它以每个样本的梯度为基准来更新模型的参数。

优点

计算简单，对大规模数据集可扩展性强。

缺点

SGD容易受到噪声的影响，因为每次更新只使用一个样本的梯度，可能会出现参数更新不稳定的情况，导致训练过程震荡。

适合的场景

SGD适用于大规模数据集和计算资源有限的情况。

torch.optim.Adam

Adam优化器是一种结合了动量（momentum）和自适应学习率的优化算法。

除了使用每个样本的梯度来更新模型参数外，Adam还考虑了过去一段时间的梯度的平均值和二次方平均值。

优点

1.可以更好地适应不同的学习率，减少参数更新的波动，加快收敛速度。
2.Adam还比SGD更稳定，对于大型神经网络和复杂的非凸优化问题效果更好。

缺点

它需要额外的内存来存储和更新梯度的平均值和二次方平均值。对于小批量训练数据（batch size较小），Adam的效果可能不如SGD。因为Adam基于梯度的平均值和二次方平均值来调整学习率，而这些统计量可能受到小批量样本的偏差影响，导致学习率的调整不准确。

适合的场景

Adam适用于复杂的非凸优化问题和大型神经网络。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

computer_vision_chen 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。