深度学习优化函数详解-- Nesterov accelerated gradient (NAG)

最新推荐文章于 2024-06-19 09:04:52 发布

坚硬果壳_

最新推荐文章于 2024-06-19 09:04:52 发布

阅读量2.8k

点赞数 7

分类专栏：深度学习

原文链接：https://blog.csdn.net/tsyccnh/article/details/76673073

版权

深度学习专栏收录该内容

21 篇文章 2 订阅

订阅专栏

动量法每下降一步都是由前面下降方向的一个累积和当前点的梯度方向组合而成。于是一位大神（Nesterov）就开始思考，既然每一步都要将两个梯度方向（历史梯度、当前梯度）做一个合并再下降，那为什么不先按照历史梯度往前走那么一小步，按照前面一小步位置的“超前梯度”来做梯度合并呢？如此一来，小球就可以先不管三七二十一先往前走一步，在靠前一点的位置看到梯度，然后按照那个位置再来修正这一步的梯度方向。如此一来，有了超前的眼光，小球就会更加”聪明“, 这种方法被命名为Nesterov accelerated gradient 简称 NAG。
这里写图片描述

↑这是momentum下降法示意图这里写图片描述

↑这是NAG下降法示意图
看上面一张图仔细想一下就可以明白，Nesterov动量法和经典动量法的差别就在B点和C点梯度的不同。

公式推导

记vt，vt 为第t次迭代梯度的累积

参数更新公式：

实验

实验选择了学习率 η=0.01, 衰减率 γ=0.9

这里写图片描述

↑ 这是Nesterov方法

↑ 这是动量法（momentum)

没有对比就没有伤害，NAG方法收敛速度明显加快。波动也小了很多。实际上NAG方法用到了二阶信息，所以才会有这么好的结果。

实验源码下载 https://github.com/tsycnh/mlbasic/blob/master/p5 Nesterov momentum.py

关注

7
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

坚硬果壳_ CSDN认证博客专家 CSDN认证企业博客

码龄7年

117: 原创

2万+: 周排名

1万+: 总排名

40万+: 访问

: 等级

2551: 积分

130: 粉丝

361: 获赞

60: 评论

1519: 收藏

私信

关注

热门文章

分类专栏

最新评论

PyTorch基础教程学习笔记（八）：训练一个分类器
翼同: --------------------------------------------------------------------------- AttributeError Traceback (most recent call last) ~\AppData\Local\Temp/ipykernel_24024/3057148826.py in <module> 15 # get some random training images 16 dataiter = iter(trainloader) ---> 17 images, labels = dataiter.next() 18 19 # show images AttributeError: '_SingleProcessDataLoaderIter' object has no attribute 'next'
pytorch之多GPU使用——#CUDA_VISIBLE_DEVICES使用 #torch.nn.DataParallel() #报错解决
坚硬果壳_: 是的，文中是针对Ubuntu系统
pytorch之多GPU使用——#CUDA_VISIBLE_DEVICES使用 #torch.nn.DataParallel() #报错解决
饿了就干饭: 我最近尝试在win10平台上使用多卡进行对大模型进行推理，文中这个方法应该是只能在linux系统使用吧，多GPU进行模型推理时，需要NCCL辅助多GPU之间进行通信，而英伟达只发布了linux版本的NCCL包~ NCCL下载地址：https://developer.nvidia.com/nccl/nccl-legacy-downloads可以验证
【已解决】.pth---＞.onnx(---＞.tflite)---＞.kmodel
xsj233: 你好，请问pip install安装好nncase之后怎么用这个来转换kmodel呢？
_pickle.UnpicklingError: unpickling stack underflow
2201_75732845: 怎么在windows里面找那个位置啊

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。