深度学习中的动量

最新推荐文章于 2024-06-03 18:37:12 发布

Tom Hardy

最新推荐文章于 2024-06-03 18:37:12 发布

阅读量1.1w

点赞数 9

分类专栏：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_29462849/article/details/80625063

版权

深度学习专栏收录该内容

113 篇文章 53 订阅

订阅专栏

动量的优点

虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法 (Polyak, 1964) 旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量的效果如下图所示。

动量的主要目的是解决两个问题： Hessian 矩阵的病态条件和随机梯度的方差。我们通过此图说明动量如何克服这两个问题的第一个。等高线描绘了一个二次损失函数（具有病态条件的 Hessian 矩阵）。横跨轮廓的红色路径表示动量学习规则所遵循的路径，它使该函数最小化。我们在该路径的每个步骤画一个箭头，表示梯度下降将在该点采取的步骤。我们可以看到，一个病态条件的二次目标函数看起来像一个长而窄的山谷或具有陡峭边的峡谷。动量正确地纵向穿过峡谷，而普通的梯度步骤则会浪费时间在峡谷的窄轴上来回移动。

从形式上看，动量算法引入了变量 v 充当速度角色——它代表参数在参数空间移动的方向和速率。速度被设为负梯度的指数衰减平均。名称动量（momentum）来自物理类比，根据牛顿运动定律，负梯度是移动参数空间中粒子的力。动量在物理学上定义为质量乘以速度。在动量学习算法中，我们假设是单位质量，因此速度向量 v 也可以看作是粒子的动量。超参数 $\alpha$ $\in$ [0; 1) 决定了之前梯度的贡献衰减得有多快。更新规则如下：

这里写图片描述

这里写图片描述

牛顿动量

这里写图片描述

关注

9
点赞
踩
50

收藏

觉得还不错? 一键收藏
1
评论
深度学习中的动量

动量的优点虽然随机梯度下降仍然是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法 (Polyak, 1964) 旨在加速学习，特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。动量的效果如下图所示。动量的主要目的是解决两个问题： Hessian 矩阵的病态条件和随机梯度的方差。我们通过此图说明动量如何克服这两...
复制链接

扫一扫

专栏目录

Tom Hardy

CSDN认证博客专家 CSDN认证企业博客

码龄9年

450: 原创

1万+: 周排名

43万+: 总排名

299万+: 访问

: 等级

2万+: 积分

2896: 粉丝

2565: 获赞

1753: 评论

2万+: 收藏

私信

关注

热门文章

分类专栏

3D视觉 6篇
人工智能 10篇
自动驾驶 7篇
学术分享 1篇
tensorflow 2篇
ACM
opencv实战 4篇
C++ 7篇
机器学习 39篇
深度学习 113篇
python 12篇
计算机视觉 48篇
kaggle实战 5篇
数据挖掘 2篇
Data Science 1篇
深度学习框架 3篇
算法之美 26篇
生活感悟 4篇
Matlab 1篇
LeetCode 60篇
PCL点云处理 12篇
项目实战 16篇
剑指offer 42篇

最新评论

基于分割的PTD渐进三角网加密滤波（SBF）算法
冰城孤雁: 效果最好的还是渐进三角网，如果只是想让地面点完整ptd方法是可以做到的，但是dem不仅仅是完整就可以了，还要保证光滑度，显然其它分类方法很难兼顾这两个特点，所以改良的 ptd方法才是正道，其它方法只能作为一种辅助改进手段，个人愚见不一定对
实践教程｜YOLOX目标检测ncnn实现
wj123123...: 为什么我转是这样的
实践教程｜YOLOX目标检测ncnn实现
wj123123...: Split splitncnn_input0 1 2 images images_splitncnn_0 images_splitncnn_1 Crop /backbone/backbone/stem/Slice 1 1 images_splitncnn_1 /backbone/backbone/stem/Slice_output_0 -23309=1,0 -23310=1,2147483647 -23311=1,1 Split splitncnn_0 1 2 /backbone/backbone/stem/Slice_output_0 /backbone/backbone/stem/Slice_output_0_splitncnn_0 /backbone/backbone/stem/Slice_output_0_splitncnn_1 Crop /backbone/backbone/stem/Slice_1 1 1 /backbone/backbone/stem/Slice_output_0_splitncnn_1 /backbone/backbone/stem/Slice_1_output_0 -23309=1,0 -23310=1,2147483647 -23311=1,2 Crop /backbone/backbone/stem/Slice_2 1 1 /backbone/backbone/stem/Slice_output_0_splitncnn_0 /backbone/backbone/stem/Slice_2_output_0 -23309=1,1 -23310=1,2147483647 -23311=1,2 Crop /backbone/backbone/stem/Slice_3 1 1 images_splitncnn_0 /backbone/backbone/stem/Slice_3_output_0 -23309=1,1 -23310=1,2147483647 -23311=1,1 Split splitncnn_1
从计算机视觉(slam)和摄影测量两个维度进行BA算法原理推导
rlczddl: 文章是好文章，就是写的太草率了。1）数学符号得说明下吧，比如ɛ是姿态的李代数 2）公式变量前后至少得一致吧，比J2的计算。
三维重建-立体校正(Recitification)
旧街子: 请问那个女生图像中的极线是怎么画的呢

大家在看

最新文章

目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。