深度学习优化算法大全系列3:NAG(Nesterov Acceleration Gradient)

最新推荐文章于 2024-06-19 09:04:52 发布

bitcarmanlee

最新推荐文章于 2024-06-19 09:04:52 发布

阅读量2.5k

点赞数 1

分类专栏： tensorflow深度学习算法文章标签：深度学习动量 NAG SGD-M

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/bitcarmanlee/article/details/122449815

版权

tensorflow深度学习算法专栏收录该内容

21 篇文章 24 订阅

订阅专栏

1.NAG与SGD-M的区别

NAG全称为Nesterov Accelerated Gradient，是在SGD-Momentum基础进一步优化所得。
前面的文章我们提到过，SGD-M主要是利用历史累积动量来代替当前梯度从而达到减小震荡，加速收敛的目的。而NAG与SGD-M的区别在于，在计算当前梯度的时候，先跟随历史累积动量前进一步，然后再看下一步怎么走。

2.算法流程

假定初始参数为 $\theta$ ，初始动量 $v$ ，动量超参数为 $\alpha$ ，梯度超参数为 $\epsilon$ ，则整个NAG算法流程如下：

1.从训练集中采样m个样本 $x^{(1)}$ , $x^{(2)}$ …, $x^{(m)}$ ，对应的标签为 $y^{(i)}$ 。
2.计算当前梯度之前先走一步： $\hat \theta = \theta + \alpha v$
3.计算当前梯度： $\bigtriangledown_\theta \sum_i L(f(x^{(i)}; \hat \theta), y^{(i)})$
4.计算动量更新： $\alpha v - \epsilon g$
5.参数更新 $\theta = \theta + v$

从上面的流程不难看出，NAG与SGD-M的区别就在第二步，其他都一样。

关注

1
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
深度学习优化算法大全系列3:NAG(Nesterov Acceleration Gradient)

1.NAG与SGD-M的区别NAG全称为Nesterov Accelerated Gradient，是在SGD-Momentum基础进一步优化所得。前面的文章我们提到过，SGD-M主要是利用历史累积动量来代替当前梯度从而达到减小震荡，加速收敛的目的。而NAG与SGD-M的区别在于，在计算当前梯度的时候，先跟随历史累积动量前进一步，然后再看下一步怎么走。2.算法流程假定初始参数为θ\thetaθ，初始动量vvv，动量超参数为α\alphaα，梯度超参数为ϵ\epsilonϵ，则整个NAG算法流程如下：
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。