机器学习之New Optimizers for Deep Learning 1(没听懂的读书笔记)

New Optimizers for Deep Learning

五个Optimizer:

  • SGD
  • SGD with momentum(SGDM)

三个Adaptive learning rate的方法:

  • Adagrad
  • RMSProp
  • Adam

Some Notations(符号)
θ t \theta_{t} θt:model parameters at time step t
▽ L ( θ t ) \triangledown L(\theta_{t}) L(θt) or g t g_{t} gt:gradient at θ t \theta_{t} θt ,used to compute θ t + 1 \theta_{t+1} θt+1
m t + 1 m_{t+1} mt+1:momentum accumulated from time step 0 to time step t,which is used to compute θ t + 1 \theta_{t+1} θt+1
在这里插入图片描述
Optimization:

  • find a θ \theta θ to get the lowest ∑ x L ( θ ; x ) \sum _{x} L(\theta ;x) xL(θ;x)
  • or, find a θ \theta θ to get the lowest L ( θ ) L(\theta) L(θ)

On-line:one pair of ( x t , y ^ t ) (x_{t},\hat{y}_{t}) (xt,y^t) at a time step;
在这里插入图片描述

Off-line:one pair of ( x t , y ^ t ) (x_{t},\hat{y}_{t}) (xt,y^t) at a time step;
在这里插入图片描述在这里插入图片描述SGD:move的方向与得到的gradient方向相反;

在这里插入图片描述在这里插入图片描述引入momentum的原因:
在这里插入图片描述
在这里插入图片描述在这里插入图片描述
在这里插入图片描述
Optimizers: Real Application

  • bert :ADAM
  • Transformer :ADAM
  • Tacotron :ADAM
  • YOLO:SGDM
  • Mask R-CNN:SGDM
  • ResNet:SGDM
  • Big-GAN:ADAM
  • MAML:ADAM

结论:
Adam:fast training ,large generalization gap,unstable(训练速度快,泛化差距大,不稳定)
SGDM:stable ,little generalization gap,better convergence(稳定,泛化差距小,收敛性好)

结合Adam 和SGDM:SWATS(begin with Adam ,end with SGDM)
在这里插入图片描述Improving Adam:
问题1:Adam在gradient大部分时候都很小的时候,就会被小的gradient牵着走;
解法1:减少较小的gradient造成的影响
AMSGrand only handles large learning rates
在这里插入图片描述问题2:Learning rates are either extremely large(for small gradients) or extremely small (for large gradients)
解法2:
在这里插入图片描述ImprovingSGDM:

问题:速度太慢
解决:

  • LR range test
    在这里插入图片描述

  • Cyclical LR:

在这里插入图片描述

  • SGDR
    在这里插入图片描述
  • One-cycle LR
    在这里插入图片描述how to warm-up Adam?
    在这里插入图片描述
    在这里插入图片描述比较:
    在这里插入图片描述
    Lookahead:universal wrapper for all optimizers
    k step forward,1 step back
    在这里插入图片描述lookahead的结果:
    在这里插入图片描述预测未来的算法:Nesterov accelerated gadient(NAG)

在这里插入图片描述

Adam in the future

  • Nadam
    在这里插入图片描述

optimizer:

在这里插入图片描述套件改进后:
在这里插入图片描述
Smoething helps optimization:

  • Shuffling(洗牌)
  • Dropout
  • Gradient noise
    在这里插入图片描述
  • Warm-up(热身)
  • Curriculum learning(课程学习):Train your model with easy first,then difficult data.Perhaps helps to improve generalization.
  • Fine-tuning(微调)
  • Normalization(标准化)
    在这里插入图片描述- Regularization(正则化)

总结

SGD和Adam的衍生算法:
在这里插入图片描述两者的特点比较:
在这里插入图片描述应用:
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值