Adam 优化器，从AdaGrad，RMSprop，Momentum的思想娓娓道来。

最新推荐文章于 2024-06-30 10:56:23 发布

IT_BOY__

最新推荐文章于 2024-06-30 10:56:23 发布

阅读量962

点赞数 1

分类专栏：深度学习文章标签：深度学习机器学习神经网络

本文链接：https://blog.csdn.net/IT_BOY__/article/details/112481151

版权

Adam优化器结合了RMSprop和Momentum的优势，解决了AdaGrad学习率收缩过快的问题。通过指数衰减平均值处理历史梯度，避免震荡并自适应学习率，尤其适合非平稳目标函数。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Adam 在批量随机梯度的基础上，充分吸收了RMSprop + Momentum思想，其中RMSprop 是在AdaGrad的基础上改进的，AdaGrad累积历史梯度平方，当历史梯度变化比较频繁时（即某一维度的梯度呈正或负方向频次比较多），那么更新的步长比较小；当历史梯度比较稀疏时（即某一维度的梯度为0频次比较多），那么更新的步长比较大。
AdaGrad公式如下所示：

$g_{t}$ 是批量随机平均梯度，是在SGD基础上加入了批量平均梯度的思想，这里不再赘述。

AdaGrad其优点：在数据分布稀疏的场景，能更好利用稀疏梯度的信息，比标准的SGD算法更有效地收敛。其缺点也显而易见，随之时间步地增加，分母项越来越大，最终导致学习率收缩到太小无法进行有效更新，虽然达到了模拟退火的目的，但是难免会太快了。RMSprop 既吸收部分累积的历史梯度平方，又吸收了部分当前梯度平方，这两种吸收的比例和为1，体现了平均梯度的思想。由于累积平方梯度只吸收部分当前累积平方梯度和当前平方梯度，所以RMSprop的累积平方梯度会小于AdaGrad的累积平方梯度，大大延迟的模拟退火时间。
RMSprop公式如下：
在这里插入图片描述

RMSprop的参数更新公式与AdaGrad很相似，只是AdaGrad采用了累积平方梯度，而RMSprop则丢失部分历史累积平方梯度，能够克服AdaGrad梯度急剧减小的问题，在很多应用中都展示出优秀的学习率自适应能力。尤其在不稳定(Non-Stationary)的目标函数下，比基本的SGD、Momentum、AdaGrad表现更良好。
Momentum的思想是累积历史步长（也可以说是历史梯度，因为步长和梯度是呈正比的，其比例系数就是固定的学习率，所以步长也是矢量，个人觉得步长用位移来代替会更合适），当频繁出现正负交替的梯度时，它们会抵消，故累积历史步长会变小，从而达到抑制震荡的效果。Momentum公式如下：
在这里插入图片描述

$\gamma$ 动量系数，默认为0.9， $\eta$ 学习率，默认为0.001， $v_{t}$

最低0.47元/天解锁文章