优化算法中动量法的理解

最新推荐文章于 2024-08-06 15:30:00 发布

飘满红楼

最新推荐文章于 2024-08-06 15:30:00 发布

阅读量927

点赞数

分类专栏：算法文章标签：深度学习算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35235032/article/details/107928537

版权

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

动量法

梯度下降存在问题，因为是对整个梯度用学习率做的衰减和增强，所以所有的梯度分量都享受同一个权重学习率，容易造成有些分量衰减的过于缓慢，有些分量震荡的剧烈到最后发散的可能

动量法在一定程度上能解决梯度下降的问题,如果考虑历史梯度，将会引导参数朝着最优值更快收敛，这就是动量算法的基本思想

$v_t = \gamma v_{t-1} + \eta_t g_t$
$x_t = x_{t-1} - v_t$

由指数加权移动平均式子转化为
$v_t = \gamma v_{t-1} + (1-\gamma)\frac{\eta_t}{1-\gamma} g_t$

动量法在每个时间步的自变量更新量近似于将最近1/(1−γ)个时间步的普通更新量（即学习率乘以梯度）做了指数加权移动平均后再除以1−γ,所以，在动量法中，自变量在各个方向上的移动幅度不仅取决当前梯度，还取决于过去的各个梯度在各个方向上是否一致
动量超参数γ满足0≤γ<1, 动量项γ通常设定为0.9, 当γ=0时，动量法等价于小批量随机梯度下降,
依赖指数加权移动平均使得自变量的更新方向更加一致，从而降低发散的可能

指数加权移动平均

$y_t = \gamma y_{t-1} + (1-\gamma)x_t$
$y_t= (1-\gamma)x_t + \gamma(1-\gamma)x_{t-1} + \gamma^2y_{t-2}$
…
$y_t = (1-\gamma) x_t + \gamma (1-\gamma)x_{t-1} + ....+ \gamma^{n-1} (1-\gamma)x_1 + \gamma^n y_0$

当 $\gamma$ =0.9时， $y_t = 0.9 y_{t-1} + 0.1x_t$

当最原始的 $y_0$ =0时

$y_t = (1-\gamma)(x_t + \gamma x_{t-1} + \gamma^2 x_{t-2} + ... + \gamma^{t-1}x_1)$

可以看出数值的加权系数随时间呈现指数下降
由于

$\lim_{n \rightarrow \infty}(1 - \frac{1}{n})^n = \frac{1}{e}$

所以将1/e作为系数临界值，当系数小于1/e时不考虑
当 $\gamma$ =0.9时，此时 $0.9^{10} \approx \frac{1}{e}$ 可以认为是近10个数的加权平均

偏差修正，初始 $y_0$ 如果等于0会造成初始的数值都偏小，此时可以用一个惩罚分母

$y_t = \frac{\gamma y_{t-1} + (1-\gamma)x_t}{1-\gamma^t}$

当t趋近0时，分母离1最远，此时相当于放大，当t很大时，分母项趋近1和之前式子近似

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

飘满红楼 CSDN认证博客专家 CSDN认证企业博客

码龄8年

35: 原创

31万+: 周排名

221万+: 总排名

6万+: 访问

: 等级

861: 积分

26: 粉丝

66: 获赞

47: 评论

369: 收藏

私信

关注

热门文章

分类专栏

操作系统 3篇
大数据 4篇
docker 2篇
MongoDB 2篇
python 4篇
算法 3篇
mysql 2篇
java 4篇
数据结构 13篇

最新评论

读者写者问题三种情况详细解释(通俗易懂)
️○-: 为什么要有while死循环呢？
Resnet网络回归的简单实现
Fe1icity: 大佬！救！怎么把表格数据导进去用于训练呢
Resnet网络回归的简单实现
qq_49804896: 博主，想问一下我要预测的y为一列，但带入该程序得到的预测值为两列，请问一下需要修改什么地方
Resnet网络回归的简单实现
Wnccc737: 兄弟，改完这个后还是报错：The size of tensor a (32) must match the size of tensor b (4) at non-singleton dimension 1 求助啊
pycharm调试出现的bug
lishuangbo0123: warning: PYDEVD_USE_CYTHON environment variable is set to 'NO'. Frame evaluator will be also disabled because it requires Cython extensions to be enabled in order to operate correctly.

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。