Nesterov Momentum简介

最新推荐文章于 2024-01-07 02:03:10 发布

VIP文章 jshnaoko

最新推荐文章于 2024-01-07 02:03:10 发布

阅读量986

点赞数 1

分类专栏： NLP

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jshnaoko/article/details/115482031

版权

Standard Gradient Update：沿着梯度的反方向改变参数（梯度指示增长的方向，我们通常希望最小化损失函数）。假设一个参数向量x和梯度dx，其更新公式为：

# Vanilla update
x += - learning_rate * dx

Momentum Update：这种更新方式从物理角度看待优化问题，在深度网络上往往能有更好的收敛率。具体而言，损失可以视为山丘地区的高度（因此有势能U=mgh，且U∝h）,用随机数初始化参数视为给一个在某处的粒子0初始速度。那么优化过程可以视为粒子在地表滚动过程的模拟。

粒子上的作用力和势能的梯度相关，这个力正好是损失函的（负）梯度。并且F=ma，所以（负）梯度又和粒子的加速度成比例。注意这里和上面的SGD更新不同，SGD中梯度直接影响位置。而在物理视角中梯度直接影响速度，间接影响位置：

# Momentum update
v = mu * v - learning_rate * dx # integrate velocity
x += v # integrate position

这里引入了一个额外的超参数mu，它被称为动量（一般值在0.9左右），但它的物理意义更接近摩擦系数。可以看到，这个变量减小速度，并且降低系统的势能，不然粒子永远不会在山丘底部停下。

在交叉验证时，这个参数一般设置成 [0.5, 0.9, 0.95, 0.99]。类似于学习率的退火规划，优化有时也能受益于动量规划，比如初始

最低0.47元/天解锁文章

关注

1
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
Nesterov Momentum简介

Standard Gradient Update：沿着梯度的反方向改变参数（梯度指示增长的方向，我们通常希望最小化损失函数）。假设一个参数向量x和梯度dx，其更新公式为：# Vanilla updatex += - learning_rate * dxMomentum Update：这种更新方式从物理角度看待优化问题，在深度网络上往往能有更好的收敛率。具体而言，损失可以视为山丘地区的高度（因此有势能U=mgh，且U∝h）,用随机数初始化参数视为给一个在某处的粒子0初始速度。那么优化过程可以视为粒
复制链接

扫一扫

专栏目录

jshnaoko CSDN认证博客专家 CSDN认证企业博客

码龄8年

31: 原创

54万+: 周排名

223万+: 总排名

2万+: 访问

: 等级

482: 积分

14: 粉丝

14: 获赞

6: 评论

34: 收藏

私信

关注

热门文章

分类专栏

最新评论

RASA中的填槽
@林峰: 老师你好，请问我将DATE实体映射成TIME实体该怎么写呢？比如我输出中秋节，rasa会判定为DATE，但是我想要的是TIME
RASA中的填槽
短迪大魔王: 针对第二个情况，停止写表单，想要修改填写过的信息该咋办
搜索推荐资料整理
ctotalk: 不错，学习了。
Google Dialogflow中的基本概念
不吃西红柿丶: 我听过最壮丽的诗句，是落霞与孤鹜齐飞。不过那是别人的景色，我的世界里，最壮丽的景色是卿笑与艳阳同媚
三分钟了解循环排序
不吃西红柿丶: 写的不错，学习了，学习的道路上一起进步，也期待你的关注与支持！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。