《动手学深度学习》第三十三天---AdaGrad算法,RMSProp算法,AdaDelta算法,Adam算法

回顾一下之前的优化算法:
在这里插入图片描述
在动量法中,我们用到指数加权移动平均来使得自变量的更新方向更加一致,从而降低发散的问题。
在这里插入图片描述

(一)AdaGrad算法

AdaGrad算法会使用一个小批量随机梯度gt按元素平方的累加变量st。在时间步0,AdaGrad将s0中每个元素初始化为0。在时间步t,首先将小批量随机梯度gt按元素平方后累加到变量st:
其中⊙是按元素相乘
在这里插入图片描述
在这里插入图片描述
如果目标函数有关自变量中某个元素的偏导数一直都较大,那么该元素的学习率将下降较快;反之,如果目标函数有关自变量中某个元素的偏导数一直都较小,那么该元素的学习率将下降较慢。
当学习率在迭代早期降得较快且当前解依然不佳时,AdaGrad算法在迭代后期由于学习率过小,可能较难找到一个有用的解。
使用AdaGrad算法时,自变量中每个元素的学习率在迭代过程中一直在降低(或不变)。

(二)RMSProp算法

不同于AdaGrad算法里状态变量st是截至时间步t所有小批量随机梯度gt按元素平方和,RMSProp算法将这些梯度按元素平方做指数加权移动平均。
在这里插入图片描述在这里插入图片描述
因为RMSProp算法的状态变量st是对平方项gt⊙gt的指数加权移动平均,所以可以看作是最近1/(1−γ)个时间步的小批量随机梯度平方项的加权平均。如此一来,自变量每个元素的学习率在迭代过程中就不再一直降低(或不变)。

(三)AdaDelta算法

同RMSProp算法一样计算:
在这里插入图片描述
与RMSProp算法不同的是,AdaDelta算法还维护一个额外的状态变量Δxt,其元素同样在时间步0时被初始化为0。我们使用Δxt−1来计算自变量的变化量:
在这里插入图片描述
在这里插入图片描述
最后,我们使用Δxt来记录自变量变化量g′t按元素平方的指数加权移动平均:
在这里插入图片描述
AdaDelta算法没有学习率超参数,它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

(四)Adam算法

Adam算法使用了动量变量vt和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量st,并在时间步0将它们中每个元素初始化为0。
时间步tt的动量变量vt即小批量随机梯度gt的指数加权移动平均:
在这里插入图片描述
将小批量随机梯度按元素平方后的项gt⊙gt做指数加权移动平均得到st:在这里插入图片描述
在Adam算法中,我们对变量vt和st均作偏差修正:
在这里插入图片描述
接下来,Adam算法使用以上偏差修正后的变量vt和st,将模型参数中每个元素的学习率通过按元素运算重新调整:
在这里插入图片描述
在这里插入图片描述
Adam算法在RMSProp算法的基础上对小批量随机梯度也做了指数加权移动平均。
Adam算法使用了偏差修正。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值