《动手学深度学习》第三十三天---AdaGrad算法，RMSProp算法，AdaDelta算法，Adam算法

最新推荐文章于 2022-09-30 13:13:09 发布

打着灯笼摸黑

最新推荐文章于 2022-09-30 13:13:09 发布

阅读量676

点赞数

分类专栏：《动手学深度学习》

本文链接：https://blog.csdn.net/qq_39594939/article/details/100587609

版权

《动手学深度学习》专栏收录该内容

37 篇文章 46 订阅

订阅专栏

回顾一下之前的优化算法：
在这里插入图片描述
在动量法中，我们用到指数加权移动平均来使得自变量的更新方向更加一致，从而降低发散的问题。

（一）AdaGrad算法

AdaGrad算法会使用一个小批量随机梯度gt按元素平方的累加变量st。在时间步0，AdaGrad将s0中每个元素初始化为0。在时间步t，首先将小批量随机梯度gt按元素平方后累加到变量st：
其中⊙是按元素相乘
在这里插入图片描述

如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。
当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。
使用AdaGrad算法时，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。

（二）RMSProp算法

不同于AdaGrad算法里状态变量st是截至时间步t所有小批量随机梯度gt按元素平方和，RMSProp算法将这些梯度按元素平方做指数加权移动平均。
在这里插入图片描述
因为RMSProp算法的状态变量st是对平方项gt⊙gt的指数加权移动平均，所以可以看作是最近1/(1−γ)个时间步的小批量随机梯度平方项的加权平均。如此一来，自变量每个元素的学习率在迭代过程中就不再一直降低（或不变）。

（三）AdaDelta算法

同RMSProp算法一样计算：
在这里插入图片描述
与RMSProp算法不同的是，AdaDelta算法还维护一个额外的状态变量Δxt，其元素同样在时间步0时被初始化为0。我们使用Δxt−1来计算自变量的变化量：

最后，我们使用Δxt来记录自变量变化量g′t按元素平方的指数加权移动平均：
在这里插入图片描述
AdaDelta算法没有学习率超参数，它通过使用有关自变量更新量平方的指数加权移动平均的项来替代RMSProp算法中的学习率。

（四）Adam算法

Adam算法使用了动量变量vt和RMSProp算法中小批量随机梯度按元素平方的指数加权移动平均变量st，并在时间步0将它们中每个元素初始化为0。
时间步tt的动量变量vt即小批量随机梯度gt的指数加权移动平均：
在这里插入图片描述
将小批量随机梯度按元素平方后的项gt⊙gt做指数加权移动平均得到st：
在Adam算法中，我们对变量vt和st均作偏差修正：

接下来，Adam算法使用以上偏差修正后的变量vt和st，将模型参数中每个元素的学习率通过按元素运算重新调整：
在这里插入图片描述

Adam算法在RMSProp算法的基础上对小批量随机梯度也做了指数加权移动平均。
Adam算法使用了偏差修正。