momentum、Adagrad、RMSProp、Adam梯度下降总结

Momentum
SGD方法中的高方差振荡使得网络很难稳定收敛,所以有研究者提出了一种称为动量(Momentum)的技术,通过优化相关方向的训练和弱化无关方向的振荡,来加速SGD训练。换句话说,这种新方法将上个步骤中更新向量的分量’γ’添加到当前更新向量。

V(t)=γV(t−1)+η∇(θ).J(θ)

通过θ=θ−V(t)来更新参数。

动量项γ通常设定为0.9,或相近的某个值。
在这里插入图片描述
这里的动量与经典物理学中的动量是一致的,就像从山上投出一个球,在下落过程中收集动量,小球的速度不断增加。

在参数更新过程中,其原理类似:

  1. 使网络能更优和更稳定的收敛;

  2. 减少振荡过程,加速收敛。

Adagrad方法

Adagrad方法是通过参数来调整合适的学习率η,对稀疏参数进行大幅更新和对频繁参数进行小幅更新。因此,Adagrad方法非常适合处理稀疏数据。

在时间步长中,Adagrad方法基于每个参数计算的过往梯度,为不同参数θ设置不同的学习率。

先前,每个参数θ(i)使用相同的学习率,每次会对所有参数θ进行更新。在每个时间步t中,Adagrad方法为每个参数θ选取不同的学习率,更新对应参数,然后进行向量化。为了简单起见,我们把在t时刻参数θ(i)的损失函数梯度设为g(t,i)。
在这里插入图片描述
G是之前该参数的梯度平方的和

Adagrad方法是在每个时间步中,根据过往已计算的参数梯度,来为每个参数θ(i)修改对应的学习率η。

Adagrad方法的主要好处是,不需要手工来调整学习率。大多数参数使用了默认值0.01,且保持不变。

Adagrad方法的主要缺点是,学习率η总是在降低和衰减。

因为每个附加项都是正的,在分母中累积了多个平方梯度值,故累积的总和在训练期间保持增长。这反过来又导致学习率下降,变为很小数量级的数字,该模型完全停止学习,停止获取新的额外知识。

因为随着学习速度的越来越小,模型的学习能力迅速降低,而且收敛速度非常慢,需要很长的训练和学习,即学习速度降低。

另一个叫做Adadelta的算法改善了这个学习率不断衰减的问题。

RMSProp方法
这是一个AdaGrad的延伸方法,它倾向于解决其学习率衰减的问题。RMSProp不是累积所有之前的平方梯度,而是将累积之前梯度的窗口限制到某个固定大小w。

与之前无效地存储w先前的平方梯度不同,梯度的和被递归地定义为所有先前平方梯度的衰减平均值。作为与动量项相似的分数γ,在t时刻的滑动平均值Eg²仅仅取决于先前的平均值和当前梯度值。

Eg²=γ.Eg²+(1−γ).g²(t),其中γ设置为与动量项相近的值,约为0.9。
在这里插入图片描述
θ=θ−∇(θ)

还可以做什么改进?

在之前的方法中计算了每个参数的对应学习率,但是为什么不计算每个参数的对应动量变化并独立存储呢?这就是Adam算法提出的改良点。

Adam算法

Adam算法即自适应时刻估计方法(Adaptive Moment Estimation),本质上是带有动量项的RMSprop。

1.类似于Momentum算法,综合考虑之前时间步的梯度动量。β1 系数为指数衰减率,控制权重分配(动量与当前梯度),通常取接近于1的值。默认为0.9
在这里插入图片描述

2,计算梯度平方的指数移动平均数,v0初始化为0。β2 系数为指数衰减率,控制之前的梯度平方的影响情况.类似于RMSProp算法,对梯度平方进行加权均值。默认为0.999
在这里插入图片描述

3.由于m0初始化为0,会导致mt偏向于0,尤其在训练初期阶段。所以,此处需要对梯度均值mt进行偏差纠正,降低偏差对训练初期的影响。
在这里插入图片描述

4.与m0 类似,因为v0初始化为0导致训练初始阶段vt偏向0,对其进行纠正。

在这里插入图片描述

初始的学习率α乘以梯度均值与梯度方差的平方根之比。其中默认学习率α=0.001,ε=10^-8,避免除数变为0。
在这里插入图片描述

参考链接:
https://www.jianshu.com/p/aebcaf8af76e

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值