2020-6-3 吴恩达-改善深层NN-w2 优化算法(2.7 RMSprop -消除梯度下降中的摆动，加速下降，加快学习 -和动量异同点)

最新推荐文章于 2024-10-04 20:50:17 发布

没人不认识我

最新推荐文章于 2024-10-04 20:50:17 发布

阅读量302

点赞数

分类专栏：深度学习 python IT 文章标签：深度学习

本文链接：https://blog.csdn.net/weixin_42555985/article/details/106516246

版权

IT 同时被 3 个专栏收录

389 篇文章 4 订阅

订阅专栏

深度学习

274 篇文章 24 订阅

订阅专栏

python

233 篇文章 0 订阅

订阅专栏

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

2.7 RMSprop

RMSprop的算法，全称root mean square prop算法，它也可以加速梯度下降。
在这里插入图片描述

观察上图。上节课已经介绍过，传统或者mini-batch梯度下降过程，虽然横轴方向正在推进，但纵轴方向会有大幅度摆动。

为了分析这个例子，假设纵轴代表参数 $b$ ，横轴代表参数 $W$ ，可能有 $W_1$ ， $W_2$ 或者其它重要的参数，为了便于理解，被称为 $b$ 和 $W$ 。

所以，为了加速下降，加速学习过程，类似动量梯度下降法，你想减缓纵轴 $b$ 方向的学习。同时加快，至少不是减缓横轴 $W$ 方向的学习，RMSprop算法可以实现这一点。

和动量梯度下降法一样，RMSprop算法会照常计算当下mini-batch的微分 $d W$ 和 $d b$ 。

RMSprop算法中使用的指数加权平均数符号是 $S_{dW}$ 和 $S_{db}$ 。而动量梯度下降法使用的是 $v_{dW}$ 和 $v_{db}$

公式如下

$S_{dW}=\beta S_{dW}+(1-\beta) dW^2$
$S_{db}=\beta S_{db}+(1-\beta) db^2$

说明

这是使用的是微分平方的加权平均数
平方是针对整个符号 $d W$ 和 $d b$ 的操作

RMSprop会按照如下方式更新参数值

$\alpha \frac {dW}{\sqrt {S_{dW}}}$
$\alpha \frac {db}{\sqrt {S_{db}}}$

解释一下原理

我们已经说过，要加速梯度下降速度，在横轴方向，我们希望学习速度快，而在垂直方向，我们希望减缓纵轴上的摆动，所以有了梯度加权平均(也就是要考虑历史梯度影响) $S_{dW}$ 和 $S_{db}$ 。

观察本文开头图中传统/mini-batch梯度下降的折线，斜率或者说函数的倾斜程度在垂直方向( $b$ )特别大，类似下图。
在这里插入图片描述

也就是说，微分在垂直方向的要比水平方向的大得多， $d b$ 比较大， $d W$ 比较小。

而 $d b$ 比较大，根据公式 $S_{db}$ 也会比较大； $d W$ 比较小，那么 $S_{dW}$ 也会比较小。

结果就是纵轴( $b$ )上的更新要被一个较大的数相除，就能消除摆动，而水平方向( $W$ )的更新则被较小的数相除。
在这里插入图片描述

如上图。RMSprop算法梯度下降过程是绿色线，纵轴方向上摆动较小，而横轴方向继续推进。

使用RMSprop算法跟Momentum有很相似的一点，可以消除梯度下降中的摆动，包括mini-batch梯度下降。你可以用一个更大学习率 $\alpha$ ，加快算法学习速度，而无须在纵轴上垂直方向偏离。

Momentum 和 RMSprop是存在区别的。
前者是在梯度的更新方向上做优化，没有考虑数值大小；后者在数值大小上进行优化，在梯度值较大的方向进行适当的减小步伐，在梯度值较小的方向适当增大步伐，没有考虑方向。
但是两者在优化效果上基本上是一致的，即减小了个别方向上的震动幅度，加快了收敛速度。

要说明一点，这里一直把纵轴和横轴方向分别称为 $b$ 和 $W$ ，只是为了方便展示而已。实际中，你会处于参数的高维度空间。在你要消除摆动的维度中，最终你要计算一个更大的微分平方和的加权平均值（例如 $S_{db}$ ），最后去掉了那些有摆动的方向。

这就是RMSprop，全称是均方根，因为你将微分进行平方，然后最后使用平方根。

为了避免和Momentum算法的超参 $\beta$ 混淆，我们把RMSprop的超参改为 $\beta_2$ ，公式变为

$S_{dW}=\beta_2 S_{dW}+(1-\beta_2) dW^2$
$S_{db}=\beta_2 S_{db}+(1-\beta_2) db^2$

有一点请注意，如果 $S_{dW}$ 和 $S_{db}$ 趋近为0，也就是更新W和b时候，分母为0，我们要在分母上加上一个很小很小的数 $\epsilon$ ，例如 10^-8，这只是保证数值能稳定一些。公式变为

$\alpha \frac {dW}{\sqrt {S_{dW}}+\epsilon}$
$\alpha \frac {db}{\sqrt {S_{db}}+\epsilon}$

没人不认识我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录