深度学习优化算法大全系列5:AdaDelta,RMSProp

最新推荐文章于 2024-04-23 23:55:42 发布

bitcarmanlee

最新推荐文章于 2024-04-23 23:55:42 发布

阅读量1k

点赞数

分类专栏： tensorflow深度学习算法文章标签： AdaDelta RMSProp 指数平均

本文链接：https://blog.csdn.net/bitcarmanlee/article/details/122487982

版权

tensorflow深度学习算法专栏收录该内容

21 篇文章 25 订阅

订阅专栏

1.AdaGrad的缺点

前面在讲到AdaGrad的时候，我们也提到了他的缺点：其梯度累积的历史是单调递增的，导致训练越往后期学习率越小，学习率是一个单调递减不可逆的过程。因此我们可以只关注一段时间内梯度的累积，而不用关心历史所有时间梯度的累积，这样可以使得学习率不会一直保持单调递减，也是AdaDelta算法中Delta的由来。

2.AdaDelta/RMSProp优化

AdaDelta/RMSProp算法，主要是通过一个衰减系数，来控制历史梯度对当前的影响。而指数移动的平均值，差不多是过去一段时间的平均值。因此二阶动量一段时间内的累积可以采用如下类似方式：
$V_t = \beta V_{t-1} + (1- \beta) g_t ^ 2$

通过以上改动，可以避免二阶动量一直累积单调递增，从而导致训练提前结束或者训练不充分的情况。

3.算法流程

假定初始参数为 $\theta$ , 初始全局学习率 $\epsilon$ ，小常数 $\delta$ 主要为了数值计算稳定，一般可以取 $10^{-7}$
算法步骤：
初始化梯度历史累积 $r = 0$
如果不满足终止条件，如下步骤循环：
1.从训练集中采样m个样本 $x^{(1)}$ , $x^{(2)}$ …, $x^{(m)}$ ，对应的标签为 $y^{(i)}$ 。
2.计算当前梯度： $\bigtriangledown_\theta \sum_i L(f(x^{(i)}; \theta), y^{(i)})$
3.累积历史梯度的平方和: $\beta r + (1-\beta)g \odot g$
4.计算梯度更新： $\Delta \theta = \frac {\epsilon}{\delta + \sqrt r} \odot g$
5.更新参数： $\theta = \theta - \Delta \theta$

从上面的算法流程不难看出，AdaDelta/RMSProp与AdaGrad的区别，其实就在第三步累积历史梯度的平方和，此时多了一个超参数 $\beta$ ，用来控制历史累积梯度对当前的影响程度。

bitcarmanlee

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法大全系列5:AdaDelta,RMSProp

1.AdaGrad的缺点前面在讲到AdaGrad的时候，我们也提到了他的缺点：其梯度累积的历史是单调递增的，导致训练越往后期学习率越小，学习率是一个单调递减不可逆的过程。因此我们可以只关注一段时间内梯度的累积，而不用关心历史所有时间梯度的累积，这样可以使得学习率不会一直保持单调递减，也是AdaDelta算法中Delta的由来。2.AdaDelta/RMSProp优化AdaDelta/RMSProp算法，主要是通过一个衰减系数，来控制历史梯度对当前的影响。而指数移动的平均值，差不多是过去一段时间的平均值
复制链接

扫一扫

专栏目录