深度学习---动量法

最新推荐文章于 2023-10-08 18:56:00 发布

VIP文章小白827

最新推荐文章于 2023-10-08 18:56:00 发布

阅读量830

点赞数

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_24503095/article/details/103719665

版权

损失函数有关自变量的梯度代表了损失函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量，然而，如果自变量的迭代方向仅仅取决于自变量当前位置，可能会带来一些问题。

例如：损失函数为 $f(x)=0.1x_1^2 + 2x_2^2$
该函数在 $x_1,x_2$ 的斜率相差较大，如果给定学习率，梯度下降迭代自变量时，会使自变量在 $x_2$ 比在 $x_1$ 的移动幅度更大，可能会越过最优解；如果降低学习率，会造成在 $x_1$ 方向上朝最优解移动缓慢，收敛速度变慢。

动量法

动量法的提出就是为了解决上述问题。
设损失函数在时间步t的小批量随机梯度为 $g_t$ ，时间步 $t$ 的自变量为 $x_t$ ，学习率为 $\eta_t$ 。在时间步0，动量法创建速度变量 $v_0$ ，并将其初始化为0。在时间 $t > 0$ ，动量法对每次迭代的步骤做如下修改：
$v_t\leftarrow \gamma v_{t-1} + \eta_tg_t \\ x_t\leftarrow x_{t-1} - v_t$

最低0.47元/天解锁文章

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
深度学习---动量法

损失函数有关自变量的梯度代表了损失函数在自变量当前位置下降最快的方向。因此，梯度下降也叫作最陡下降。在每次迭代中，梯度下降根据自变量当前位置，沿着当前位置的梯度更新自变量，然而，如果自变量的迭代方向仅仅取决于自变量当前位置，可能会带来一些问题。例如：损失函数为f(x)=0.1x12+2x22f(x)=0.1x_1^2 + 2x_2^2f(x)=0.1x12+2x22该函数在x1,x2x_1...
复制链接

扫一扫

专栏目录

小白827 CSDN认证博客专家 CSDN认证企业博客

码龄9年

64: 原创

26万+: 周排名

67万+: 总排名

16万+: 访问

: 等级

1772: 积分

10: 粉丝

69: 获赞

5: 评论

344: 收藏

私信

关注

热门文章

分类专栏

pytorch 11篇
Linux 18篇
编程题 2篇
C 2篇
C++ 10篇
Lua 3篇
深度学习 21篇
pandas 1篇
python

最新评论

类和动态内存分配
dxz0561: 你好请问在类中对非静态成员变量进行初始化，这个非静态成员变量会直接分配内存空间吗。
pytorch中DataLoader函数
谁知故人不识君: 是的啊
pytorch中DataLoader函数
王小二的拖拉机: 您好，有个问题希望得到您的回复。shuffle为True代表每个epoch打乱顺序是不是可以理解为每次调用它，其中数据都重新排序？
深度学习---时序数据的采样（随机采样和相邻采样）
ctotalk: thanks
Linux中增加和删除用户组
ctotalk: 谢谢分享，不错

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。