Adam：一种随机优化算法

最新推荐文章于 2025-03-07 20:52:52 发布

无痕公子style

最新推荐文章于 2025-03-07 20:52:52 发布

阅读量3k

点赞数

分类专栏：神经网络优化算法文章标签：神经网络深度学习算法

本文链接：https://blog.csdn.net/qq_38507234/article/details/106896487

版权

神经网络优化算法专栏收录该内容

1 篇文章

订阅专栏

Adam算法结合了Momentum和RMSProp的优点，并通过偏差修正解决了冷启动问题。Momentum用于历史梯度的指数衰减平均，RMSProp用于历史梯度平方的指数衰减平均。一阶矩和二阶矩估计分别代表动量和自适应部分，用于控制模型更新的方向和步长。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

算法伪代码
算法理解：
Adam = Momentum（动量） + RMSProp（自适应） + bias correction（偏差修正）
Momentum：历史梯度的指数衰减平均
RMSProp：历史梯度平方的指数衰减平均
偏差修正：解决加权平均计算中的冷启动问题，即加权平均值的前几个与实际值相差太远。

一阶矩估计和二阶矩估计分别代表原来的动量和自适应部分。模型的梯度是一个随机变量，一阶矩表示梯度均值，二阶矩表示其方差，一阶矩来控制模型更新的方向，二阶矩控制步长(学习率)，αt/√vt 是自适应的学习率。用moveing average来对一阶矩和二阶矩进行估计。bias correct是为了缓解初始一阶矩和二阶矩初始为0带来的moving average的影响。

为什么要修正？
一方面，由于m和v的初始值为0，所以第一轮的时候会非常偏向于第2项，那么m1=0.1gt,v1=0.001gt^2, 那么m1/(√v1+ϵ) 如果直接使用有偏估计，则有效步长亦即参数更新中的项可能大很多，需要将其修正回来，当使用偏差校正估计时：
在这里插入图片描述

那么

变得不那么敏感β1和β2。
另一方面，由于β1和β2非常接近1，如果不修正，对于最初的几轮迭代会有严重的影响，在训练初期mt和vt都很小，偏向于0，从而训练缓慢（β1和β2都大于0.5，很明显移动平均线偏向于初始值m0、v0），因此通过修正偏差来抵消这个倾向。