深度学习3

在这里插入图片描述
mt + 1 : 动量

L(θt;x t) : 表示y 和 y^ 之间的差距

• Find a 𝜃 to get the lowest Σ𝑥 𝐿(𝜃; 𝑥) !!
• Or, Find a 𝜃 to get the lowest 𝐿(𝜃) !!
在这里插入图片描述
在这里插入图片描述
SGD
在这里插入图片描述
SGDM
在这里插入图片描述
在这里插入图片描述
Momentum项相当于速度,因为β稍小于1,表现出一些摩擦力,所以球不会无限加速下去,所以不像梯度下降法,每一步都独立于之前的步骤,你的球可以向下滚,获得动量,可以从碗向下加速获得动量。
有两个超参数,学习率a以及参数\beta,\beta控制着指数加权平均数。\beta最常用的值是0.9

adagrad在这里插入图片描述
RMSprop
在这里插入图片描述
Adam:SGDM+RMSProp
在这里插入图片描述
在这里插入图片描述
SWATS
在这里插入图片描述
在这里插入图片描述
由于,Adam的机制,会考虑历史的大量的梯度影响,在出现一个真正有意义的重要的梯度时,往往又被削弱了其影响。如图中100999次迭代,产生了超大的gradient,结果由于Adam的机制,让他呗削弱的还没有之前的小的gradient的影响大。
AMSGrad
AdaBound
在这里插入图片描述
对Learning Rate加阈值,限制其范围,避免过大和过小。
在这里插入图片描述
Cyclical LR
就是周期性改变Learning Rate,周期性变大变小,维持其搜索速度和精度。
在这里插入图片描述
SGDR
一个思路,就是变大过程直接阶跃变最大。
在这里插入图片描述
One-Cyclical
单个周期内改变其大小。
在这里插入图片描述
warm-up:针对学习率的优化方式
在这里插入图片描述
Warmup是在ResNet论文中提到的一种学习率预热的方法,它在训练开始的时候先选择使用一个较小的学习率,训练了一些epoches或者steps(比如4个epoches,10000steps),再修改为预先设置的学习来进行训练。

RAdam
在这里插入图片描述
RAdam vs SWATS在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值