改善深层神经网络：超参数调整、正则化以及优化——2.6 动量梯度下降法

最新推荐文章于 2021-11-08 16:30:37 发布

然后就去远行吧

最新推荐文章于 2021-11-08 16:30:37 发布

阅读量224

点赞数

分类专栏：吴恩达深度学习

本文链接：https://blog.csdn.net/qq_37388085/article/details/103726014

版权

吴恩达深度学习专栏收录该内容

61 篇文章 30 订阅

订阅专栏

如果要优化成本函数，函数如下图所示，红点代表最小值的位置。假设从边缘开始梯度下降，如果进行梯度下降法的一次迭代，无论是batch还是mini-batch下降法，都会产生较大的迭代波动，这会导致花费更多的时间。同时为了避免摆动过大，需要用一个较小的学习率。
在这里插入图片描述
另一个看待问题的角度是，如果，在竖轴上我们希望摆动小一点，同时，在横轴上希望摆动能大一点，所以我们使用Momentum梯度下降法。我们需要做的是，在每次迭代中，确切来说在第t次迭代的过程中，需要计算微分 $d w$ ， $d b$ ，用现有的mini-batch计算 $d w$ 和 $d b$ 。如果用batch梯度下降法，现在的mini-batch就是全部的batch，对于batch梯度下降法的效果是一样的。如果现有的mini-batch就是整个训练集，效果也不错。

我们要做的是 $V_{dw}=\beta*V_{dw}+(1-\beta)*dW$ 同样的计算 $V_{db}=\beta*V_{db}+(1-\beta)*db$ 然后更新权重 $w=w-\alpha*V_{dw}$ $b=b-\alpha*V_{db}$ 这样就可以减缓梯度下降的幅度。

Momentum的一个本质，如果想要最小化碗状函数，Momentum能够最小化碗状函数， $d W$ 和 $d b$ 可以想象它们为从山上往下滚的一个球，提供了加速度，Momentum项就相当于速度。想象有一个碗，拿一个球，微分给了这个球一个加速度，此时球正向山下滚，球因为加速度越滚越快，而因为 $\beta$ 稍小于1，表现出一些摩擦力，所以球不会无限加速下去。所以不像梯度下降法每一步都独立于之前的步骤，球可以向下滚，获得动量。

看一下具体如何计算，算法有两个超参数，学习率 $\alpha$ 和参数 $\beta$ ， $\beta$ 控制着指数加权平均数， $\beta$ 最常用的值是0.9，平均了前十次迭代的梯度。实际上 $\beta$ 为0.9时效果不错。
$V_{dw}=\beta*V_{dw}+{1-\beta}*dW$ $V_{db}=\beta*V_{db}+(1-\beta)*db$ $W=W-\alpha*V_{dw}$ $b=b-\alpha*V_{db}$ 关于偏差修正，需要计算 $\frac{V_{dw}}{1-\beta^t}$ ，实际上我们并不使用偏差修正。因为10次迭代之后，移动平均已经过了初始阶段，不再是一个具有偏差的预测。实际上，在使用梯度下降法或者Momentum时，不会受到偏差修正的困扰。当然 $V_{dw}$ 的初始值为0。

然后就去远行吧

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
改善深层神经网络：超参数调整、正则化以及优化——2.6 动量梯度下降法

如果要优化成本函数，函数如下图所示，红点代表最小值的位置。假设从边缘开始梯度下降，如果进行梯度下降法的一次迭代，无论是batch还是mini-batch下降法，都会产生较大的迭代波动，这会导致花费更多的时间。同时为了避免摆动过大，需要用一个较小的学习率。另一个看待问题的角度是，如果，在竖轴上我们希望摆动小一点，同时，在横轴上希望摆动能大一点，所以我们使用Momentum梯度下降法。我们需要做的是...
复制链接

扫一扫