Nesterov Momentum 工程实现上的trick

最新推荐文章于 2021-12-14 09:08:35 发布

Yang-W

最新推荐文章于 2021-12-14 09:08:35 发布

阅读量967

点赞数 1

分类专栏： deep-learning math

本文链接：https://blog.csdn.net/tiandiwoxin92/article/details/78323790

版权

Nesterov Momentum 工程实现上的trick

Nesterov Momentum是momentum这种优化方法的一个变种，其参数更新规则这样的：

v \leftarrow α v + g r a d (θ + α v) θ \leftarrow θ - l r \cdot v

$v \leftarrow \alpha v + grad(\theta + \alpha v) \\ \theta \leftarrow \theta - lr \cdot v$

参数更新规则这样写有一个问题。一般情况下，（以tensorflow为例）optimizationMethod所接受的参数只有计算好的 $grad(\theta)$ 和 $\theta$ , 那么我们怎么计算 grad(θ+αv)

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Yang-W

关注关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

目标检测的Tricks | 【Trick5】学习率调优方法——warmup

Clichong

04-17

3124

如有错误，恳请指出。文章目录1. warmup理论概要2. warmup实现代码 1. warmup理论概要 warmup定义：在模型训练之初选用较小的学习率，训练一段时间之后（如：10epoches或10000steps）使用预设的学习率进行训练。 warmup作用：因为模型的weights是随机初始化的，可以理解为训练之初模型对数据的“理解程度”为0（即：没有任何先验知识），在第一个epoches中，每个batch的数据对模型来说都是新的，模型会根据输入的数据进行快速调参，此时如果采用较大的.

YOLOv5的Tricks | 【Trick6】学习率调整策略（One Cycle Policy、余弦退火等）

Clichong

06-07

1万+

如有错误，恳请指出。其中包括：LR Range Test、Cyclical LR、One Cycle Policy、SGDR、AdamW 、SGDW、pytorch实现的余弦退火策略。具体的学习率调整策略，详细见参考资料。yolov5代码中提供了两种学习率调整方案：线性学习率与One Cycle学习率调整代码比较简单，如下所示：配合辅助绘制函数，这里可以将两种学习率调整策略的学习率随epochs变化绘制出来，这里我重新写了一个函数比较方便调用lf。参考代码：下面利用以上函数分别查看线性学习率与One C

参与评论您还未登录，请先登录后发表或查看评论

工程Trick | 合并BN层加速前向推理

yuanCruise

03-13

540

1.BatchNorm 在训练深度网络模型时，BN（Batch Normalization）层能够加速网络收敛，并且能够控制过拟合，一般放在卷积层之后。如下示意图所示，BatchNorm是以通道为单位，对当前通道中所有的N、H、W做归一化。 BN 层将特征归一化后，能够有效解决由于特征分布不均匀而导致的梯度消失与梯度爆炸问题。并通过可学习参数保证特征的有效性。虽然 BN 层在训练时起到了积极作用...

语义分割技巧：纯工程tricks

别说话写代码的博客

01-21

6375

转自：https://www.zhihu.com/question/272988870/answer/562262315 作者：AlexL 知乎问题：有关语义分割的奇技淫巧有哪些？ AlexL的回答：代码取自在Kaggle论坛上看到的帖子和个人做过的project 1. 如何去优化IoU 在分割中我们有时会去用intersection over union去衡量模型的表现，具体定义...

Gradient Descent、Momentum、Nesterov的实现及直觉对比

huqinwei的专栏

10-22

1518

GradientDescent、Momentum（动量）、Nesterov（牛顿动量）的直觉含义对比： Gradient Descent def gd(x_start, step, g):#gradient descent x = np.array(x_start, dtype='float64') # print(x) passing_dot = [x....

深度学习中优化方法——momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam

天泽28的专栏

05-22

6万+

深度学习中优化方法 —momentum、Nesterov Momentum、AdaGrad、Adadelta、RMSprop、Adam— &amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;&amp;amp;nbsp;我们通常使用梯

Nesterov Momentum牛顿动量法

zrh_CSDN的博客

07-30

2731

Nesterov Momentum 这是对之前的Momentum的一种改进,大概思路就是,先对参数进行估计,然后使用估计后的参数来计算误差具体实现: 需要:学习速率 ϵ, 初始参数 θ, 初始速率v, 动量衰减参数α 每步迭代过程: 1. 从训练集中的随机抽取一批容量为m的样本{x1,…,xm},以及相关的输出yi 2. 计算梯度和误差,并更新速度v和参数θ: 注意在估...

梯度下降算法_Adam-一种随机优化算法

weixin_40003512的博客

10-20

5487

【前言】: 优化问题一直是机器学习乃至深度学习中的一个非常重要的领域。尤其是深度学习，即使在数据集和模型架构完全相同的情况下，采用不同的优化算法，也很可能导致截然不同的训练效果。adam是openai提出的一种随机优化方法，目前引用量已经达到4w+，在深度学习算法优化中得到广泛的使用，是一种高效的优化算法。该算法是在梯度下降算法(SGD)的理念上，结合Adagrad和RMSProp算法提出的，计算...

模型剪枝方法：通过网络瘦身学习高效的卷积网络

ManiacLook的博客

12-14

4967

深度卷积神经网络 (CNN) 在许多实际应用中的部署在很大程度上受到其高计算成本的阻碍。在本文中，我们为CNN提出了一种新颖的学习方案，以同时1) 减小模型大小；2) 减少运行时内存占用；3) 在不影响准确性的情况下，减少计算操作的次数。这是通过以一种简单但有效的方式在网络中实施通道级稀疏性来实现的。与许多现有方法不同，所提出的方法直接适用于现代CNN架构，将训练过程的开销降至最低，并且不需要为生成的模型使用特殊的软件/硬件加速器。我们称我们的方法为网络瘦身。

Nesterov Momentum简介

jshnaoko的博客

04-07

1029

Standard Gradient Update：沿着梯度的反方向改变参数（梯度指示增长的方向，我们通常希望最小化损失函数）。假设一个参数向量x和梯度dx，其更新公式为： # Vanilla update x += - learning_rate * dx Momentum Update：这种更新方式从物理角度看待优化问题，在深度网络上往往能有更好的收敛率。具体而言，损失可以视为山丘地区的高度（因此有势能U=mgh，且U∝h）,用随机数初始化参数视为给一个在某处的粒子0初始速度。那么优化过程可以视为粒

使用动量(Momentum)的SGD、使用Nesterov动量的SGD

weixin_37958272的博客

07-05

6148

使用动量(Momentum)的SGD、使用Nesterov动量的SGD 参考：使用动量(Momentum)的SGD、使用Nesterov动量的SGD 一. 使用动量(Momentum)的随机梯度下降虽然随机梯度下降是非常受欢迎的优化方法，但其学习过程有时会很慢。动量方法旨在加速学习（加快梯度下降的速度），特别是处理高曲率、小但一致的梯度，或是带噪声的梯度。动量算法累积了之前梯度指数级衰减的移动平均，并且继续沿该方向移动。简单介绍一下什么是指数加权平均(exponential weight average

深度学习笔记：优化方法总结(BGD,SGD,Momentum,AdaGrad,RMSProp,Adam)

热门推荐

Multiangle's Notepad

11-01

8万+

最近在看Google的Deep Learning一书，看到优化方法那一部分，正巧之前用tensorflow也是对那些优化方法一知半解的，所以看完后就整理了下放上来，主要是一阶的梯度法，包括SGD, Momentum, Nesterov Momentum, AdaGrad, RMSProp, Adam。其中SGD,Momentum,Nesterov Momentum是手动指定学习速率的,而后面的Ad

Deep Learning 最优化方法之Nesterov(牛顿动量)

BVL的博客

05-21

2万+

本文是Deep Learning 之最优化方法系列文章的Nesterov(牛顿动量)方法。主要参考Deep Learning 一书。先上结论： 1.Nesterov是Momentum的变种。 2.与Momentum唯一区别就是，计算梯度的不同，Nesterov先用当前的速度v更新一遍参数，在用更新的临时参数计算梯度。 3.相当于添加了矫正因子的Momentum。

Nesterov Momentum

jiongjiong 的专栏

08-09

1184

x_ahead = x + mu * v # evaluate dx_ahead (the gradient at x_ahead instead of at x) v = mu * v - learning_rate * dx_ahead x += v => x_prev = x v_prev = v x_ahead = x_prev+ mu * v_prev v = mu * v_...

各种优化方法总结比较（sgd/momentum/Nesterov/adagrad/adadelta）

blue_jjw的专栏

02-10

3万+

转自：点击打开链接前言这里讨论的优化问题指的是，给定目标函数f(x)，我们需要找到一组参数x，使得f(x)的值最小。本文以下内容假设读者已经了解机器学习基本知识，和梯度下降的原理。 SGD SGD指stochastic gradient descent，即随机梯度下降。是梯度下降的batch版本。对于训练数据集，我们首先将其分成n个batch，每个bat

各种优化方法总结笔记（sgd/momentum/Nesterov/adagrad/adadelta）

大鹏的专栏

09-23

2214

http://blog.csdn.net/luo123n/article/details/48239963 别忘看评语 http://sebastianruder.com/optimizing-gradient-descent/index.html#gradientdescentvariants AdaptiveGradient (ADAGRAD)

随机梯度下降中，momentum的理解

nuoman_cheng的博客

12-29

6827

梯度下降中梯度步长冲量的关系

Adam那么棒，为什么还对SGD念念不忘

jiachen0212的博客

04-25

2万+

本文转载自「机器学习炼丹记」，搜索「julius-ai」即可关注。原文链接：小象（一）一个框架看懂优化算法机器学习界有一群炼丹师，他们每天的日常是：拿来药材（数据），架起八卦炉（模型），点着六味真火（优化算法），就摇着蒲扇等着丹药出炉了。不过，当过厨子的都知道，同样的食材，同样的菜谱，但火候不一样了，这出来的口味可是千差万别。火小了夹生，火大了易糊，火不匀则半生半糊。机器学习也是一样，模型优化算...