2020-6-2 吴恩达-改善深层NN-w2 优化算法(2.6 动量（Momentum）梯度下降法-加快梯度下降-解决传统/min-batch下降路线折来折去浪费时间的问题)

最新推荐文章于 2021-06-03 17:13:33 发布

没人不认识我

最新推荐文章于 2021-06-03 17:13:33 发布

阅读量314

点赞数

分类专栏：深度学习 python IT 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42555985/article/details/106494225

版权

动量梯度下降法是一种比标准梯度下降更快的优化算法。通过计算梯度的指数加权平均，它能减少在寻找最小值过程中路径的摆动，特别是在横轴方向上加快学习速度。在纵轴方向，平均值接近零，摆动减少，而横轴方向的平均值保持较大，使得算法沿着更直接的路径接近最小值。超参数β控制加权平均，通常取值0.9。在实际应用中，动量梯度下降法常用于深度学习模型的训练，以提高收敛速度。

摘要由CSDN通过智能技术生成

1.视频网站：mooc慕课https://mooc.study.163.com/university/deeplearning_ai#/c
2.详细笔记网站(中文)：http://www.ai-start.com/dl2017/
3.github课件+作业+答案：https://github.com/stormstone/deeplearning.ai

2.6 动量梯度下降法 Gradient descent with momentum

有一种算法叫做Momentum，或者叫做动量梯度下降法，运行速度几乎总是快于标准的梯度下降算法。

简而言之，基本的想法就是计算梯度的指数加权平均数，并利用该梯度更新你的权重。本节将介绍它。
在这里插入图片描述

假设你要优化成本函数，函数形状如上图，红点代表最小值的位置。

假设你从下图左边（蓝色点）开始梯度下降法。
如果进行梯度下降法的迭代，无论是batch或mini-batch下降法，你会发现梯度下降法要很多计算步骤。
在这里插入图片描述

梯度慢慢摆动到最小值，这种上下波动减慢了梯度下降法的速度，你就无法使用更大的学习率。如果你要用较大的学习率（紫色箭头），结果可能会偏离函数的范围，为了避免摆动过大，你要用一个较小的学习率。

另一个要注意的问题是，在纵轴上，你希望学习慢一点，因为你不想要这些摆动。但是在横轴上，你希望加快学习，这样可以快速从左向右移，移向最小值红点。

所以使用动量梯度下降法，你需要做的是，在第 $t$ 次迭代的过程中，计算微分 $d W$ 和 $d b$ 。计算方法类似之前的温度移动加权平均公式 $v_t=\beta v_{t-1}+(1-\beta)\theta_t$ 。

$v_{dW}=\beta v_{dW}+(1-\beta)dW$ 。得到 $d W$ 的移动平均数。
$v_{db}=\beta v_{db}+(1-\beta)db$

最低0.47元/天解锁文章

没人不认识我

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。