深度学习优化算法大全系列2: Momentum(动量)

最新推荐文章于 2024-06-03 18:37:12 发布

bitcarmanlee

最新推荐文章于 2024-06-03 18:37:12 发布

阅读量2k

点赞数 1

分类专栏： tensorflow深度学习算法文章标签：深度学习动量 SGD-M

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bitcarmanlee/article/details/122415806

版权

tensorflow深度学习算法专栏收录该内容

21 篇文章 24 订阅

订阅专栏

1.Momentum要解决的问题

SGD有个问题就是收敛过程会产生震荡，这个相信大家都明白。Momentum主要解决的就是这个问题。

具体的解决思路为在SGD基础上引入一阶动量，公式可以表示如下：
$m_t = \beta_1 \cdot m_{t-1} + (1- \beta_1) \cdot g_t$

其中， $\beta_1$ 为超参数，经验值为0.9。 $\beta_1$ 越大，说明当前动量主要由以前累积的方向决定。而 $\beta_1$ 越小，说明当前动量更多由当前梯度决定。

2.Momentum为什么能解决震荡

首先大家回忆一下为什么传统的SGD会有收敛震荡问题？
假设前一时刻的梯度与当前的梯度方向几乎相反，那么用传统SGD迭代的时候，该点徒弟就必有大幅的徘徊，这个时候就必然会引起震荡。
而Momentum积累了历史的梯度，此刻的梯度收到前一时刻的影响，会导致当前时刻梯度徘徊的幅度大幅减小。从直观来讲，就是当前时刻梯度如果与历史积累相似，这种趋势会得到加强。而当前时刻梯度如果与历史时刻相反，当前时刻的梯度会减弱，这样就能达到减小收敛震荡的效果。

3.动量能加速收敛

动量不光能解决收敛震荡问题，还能加速优化问题收敛。

由第一部分我们将动量公式可以表示为
$m_t = \alpha \cdot m_{t-1} + \epsilon \cdot g_t$

假设每个时刻梯度 $g_t$ 的方向都一致，那么有
$m_t = \frac{\epsilon \cdot g_t}{1 - \alpha}$

如果 $\alpha = 0.5$ ，此时动量法的收敛速度是传统SGD的2倍。
如果 $\alpha = 0.9$ ，此时动量法的收敛速度是传统SGD的10倍。
如果 $\alpha = 0.99$ ，此时动量法的收敛速度是传统SGD的100倍。

4.动量法的算法流程

假定初始参数为 $\theta$ ，初始动量 $v$ ，动量超参数为 $\alpha$ ，梯度超参数为 $\epsilon$ ，则整个动量法算法流程如下：

1.从训练集中采样m个样本 $x^{(1)}$ , $x^{(2)}$ …, $x^{(m)}$ ，对应的标签为 $y^{(i)}$ 。
2.计算梯度 $\bigtriangledown_\theta \sum_i L(f(x^{(i)}; \theta), y^{(i)})$
3.计算动量更新 $\alpha v - \epsilon g$
4.参数更新 $\theta = \theta + v$

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法大全系列2: Momentum(动量)

1.Momentum要解决的问题SGD有个问题就是收敛过程会产生震荡，这个相信大家都明白。Momentum主要解决的就是这个问题。具体的解决思路为在SGD基础上引入一阶动量，公式可以表示如下：mt=β1⋅mt−1+(1−β1)⋅gtm_t = \beta_1 \cdot m_{t-1} + (1- \beta_1) \cdot g_tmt=β1⋅mt−1+(1−β1)⋅gt其中，β1\beta_1β1为超参数，经验值为0.9。β1\beta_1β1越大，说明当前动量主要由以前累积的方
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。