Momentum、RMSprop、Adam

最新推荐文章于 2023-08-25 16:10:20 发布

lx127372

最新推荐文章于 2023-08-25 16:10:20 发布

阅读量357

点赞数 2

分类专栏：深度学习文章标签：深度学习

本文链接：https://blog.csdn.net/lx127372/article/details/104343689

版权

深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

吴恩达深度学习笔记

要说Momentum、RMSprop、Adam这三个优化器就要先讲讲指数加权平均

指数加权平均

在这里插入图片描述
上图是一年中365天的温度变化
指数加权平均的等式是：V_t = βV_t-1 + (1-β)θ_t
θ_t 代表第t天的温度，也就是纵轴的数值，那么这个等式得到的V_t 近似代表的就是近似是1/(1-β)天的平均温度。
当β = 0.9时，V_t 就近似10天的平均温度，
当β = 0.98时，V_t 就近似50天的平均温度，
当β = 0.5时，V_t 就近似2天的平均温度
当β取不同的值的时候可以画出不同的曲线，当β = 0.98时，画出的曲线最平滑，当β = 0.5时，画出的曲线最陡。
在这里插入图片描述
如上图，当β = 0.9时，是红色曲线，当β = 0.98时是绿色曲线。

偏差修正

其实，在估计运算初期，不能很好的估计温度的值，产生的点会很低，所以需要进行偏差修正，具体就是用V_t/ (1-β^t)代替 V_t
这样就在前期进行了修正，随着t增大βt接近于0，所以后边的数值基本一样。

Momentum

在这里插入图片描述
在梯度下降过程中，我们希望在纵轴上震荡较小，在横轴上希望加快速度。那么我们应用上面的指数加权平均可以实现
循环：
在每个mini-batch上计算dw,db （代表导数）
V_dw = βV_dw+(1-β)dw
V_db = βV_db+(1-β)db ·
更新参数w和b
w= w-αV_dw α是学习率
b = b-αV_db
当β = 0.9时，相当于10次迭代的平均，这样就可以使纵轴的震动较小，水平方向更快。
默认值β = 0.9

RMSprop

利用均方根
循环：
在每个mini-batch上计算dw,db（导数）
S_dw = βS_dw + (1-β)dw²
S_db = βS_db + (1-β)db²
更新参数w和b
w= w-αdw / [(S_dw) ^{1/ 2} + a]
b = b-αdb / [ (S_db) ^{1/ 2} + a]

这里实际上我们用的是导数平方的加权操作，a一般为10^-8 防止分母趋近于0。
根据这个更新参数的公式里面的，我们根据一开始说的目的，所以希望dw小，db大。
因为函数在垂直方向的斜率比在水平方向的斜率大（因为垂直方向比水平方向更抖），所以这是成立的。
所以我们还可以使用大一些学习率加快训练速度而不担心垂直方向的扩散。

Adam

Adam的主要思想就是把上面的两个方法结合起来
循环：
在每个mini-batch上计算dw,db（导数）
V_dw = β₁S_dw+(1 - β₁)dw , V_db = β₁S_db + (1-β₁)db (Momentum)
S_dw = β₂S_dw+(1 - β₂)dw²，S_db = β₂S_db + (1 - β₂)db² (RMSprop)
偏差修正：
V_dw(correct) = V_dw / (1 - β₁^t)，V_db(correct) = V_db / (1 - β₁^t)
S_dw(correct) = S_dw / (1 - β₂^t)，S_db(correct) = S_db / (1 - β₂^t)
更新参数w和b
w= w - α* V_dw(correct) / [( S_dw(correct))^1/2 + a]
b = b - α* V_db(correct) / [( S_db(correct))^1/2 + a]