机器学习11:Tips of DNN——改进梯度下降

一、Adagrad

Adagrad方法是一种自适应的梯度下降方法,原始模型中的梯度为\eta\frac{first derivative}{second derivative},Adagrad使用一次偏导估计二次偏导,如下:

它可以自适应如下椭圆两个方向的梯度下降情况:

二、RMSProp(Adagrad的进阶版)

考虑更复杂的情况:

RMSProp对Adagrad的分母项进行了改进,它对平方和中的前面项与当前项加了权重。通过调整\alpha值,调整当前位置的偏导数与之前位置偏导数的权重得到更灵活的梯度方法。

三、Momentum

梯度下降可能会陷入Local minimum,包括梯度接近于0的位置:

借鉴物理中的小球滚动过程惯性的特征对梯度增加正则化项,只要在Local Minimum出不出现很陡的上坡,都有可能向前寻找更低点。

梯度最终决定于所有走过位置偏导的加权。即使当前的偏导为0(Local Minumum),由于惯性(以前的偏导还起作用),会继续向前走

四、Adam

Adam的实质是RMSProp与Momentum的组合

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值