深度学习3

最新推荐文章于 2022-03-20 18:41:06 发布

阿里发发

最新推荐文章于 2022-03-20 18:41:06 发布

阅读量52

点赞数

本文链接：https://blog.csdn.net/qq_43573054/article/details/119832425

版权

在这里插入图片描述
mt + 1 : 动量

L(θt;x t) : 表示y 和 y^ 之间的差距

• Find a 𝜃 to get the lowest Σ𝑥 𝐿(𝜃; 𝑥) !!
• Or, Find a 𝜃 to get the lowest 𝐿(𝜃) !!
在这里插入图片描述

SGD

SGDM

Momentum项相当于速度,因为β稍小于1，表现出一些摩擦力，所以球不会无限加速下去，所以不像梯度下降法，每一步都独立于之前的步骤，你的球可以向下滚，获得动量，可以从碗向下加速获得动量。
有两个超参数，学习率a以及参数\beta，\beta控制着指数加权平均数。\beta最常用的值是0.9

adagrad 在这里插入图片描述
RMSprop

Adam：SGDM+RMSProp

SWATS

由于，Adam的机制，会考虑历史的大量的梯度影响，在出现一个真正有意义的重要的梯度时，往往又被削弱了其影响。如图中100999次迭代，产生了超大的gradient，结果由于Adam的机制，让他呗削弱的还没有之前的小的gradient的影响大。
AMSGrad
AdaBound
在这里插入图片描述
对Learning Rate加阈值，限制其范围，避免过大和过小。

Cyclical LR
就是周期性改变Learning Rate，周期性变大变小，维持其搜索速度和精度。

SGDR
一个思路，就是变大过程直接阶跃变最大。

One-Cyclical
单个周期内改变其大小。
在这里插入图片描述
warm-up:针对学习率的优化方式

Warmup是在ResNet论文中提到的一种学习率预热的方法，它在训练开始的时候先选择使用一个较小的学习率，训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

RAdam
在这里插入图片描述
RAdam vs SWATS

阿里发发

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
深度学习3

mt + 1 : 动量L(θt;x t) : 表示y 和 y^ 之间的差距• Find a ???? to get the lowest Σ???? ????(????; ????) !!• Or, Find a ???? to get the lowest ????(????) !!SGDSGDMMomentum项相当于速度,因为β稍小于1，表现出一些摩擦力，所以球不会无限加速下去，所以不像梯度下降法，每一步都独立于之前的步骤，你的球可以向下滚，获得动量，可以从碗向下加速获得动量。
复制链接

扫一扫