机器学习之New Optimizers for Deep Learning 1（没听懂的读书笔记）

最新推荐文章于 2022-04-19 10:29:58 发布

L_cherry_

最新推荐文章于 2022-04-19 10:29:58 发布

阅读量139

点赞数

分类专栏：人工智能读书笔记文章标签：机器学习 r语言深度学习

本文链接：https://blog.csdn.net/l_cherry_/article/details/119212507

版权

人工智能读书笔记专栏收录该内容

24 篇文章 1 订阅

订阅专栏

New Optimizers for Deep Learning

五个Optimizer：

SGD
SGD with momentum（SGDM）

三个Adaptive learning rate的方法：

Adagrad
RMSProp
Adam

Some Notations(符号)
$\theta_{t}$ ：model parameters at time step t
$\triangledown L(\theta_{t})$ or $g_{t}$ ：gradient at $\theta_{t}$ ,used to compute $\theta_{t+1}$
$m_{t+1}$ ：momentum accumulated from time step 0 to time step t,which is used to compute $\theta_{t+1}$
在这里插入图片描述
Optimization:

find a $\theta$ to get the lowest $\sum _{x} L(\theta ;x)$
or, find a $\theta$ to get the lowest $L(\theta)$

On-line:one pair of $(x_{t},\hat{y}_{t})$ at a time step;
在这里插入图片描述

Off-line:one pair of $(x_{t},\hat{y}_{t})$ at a time step;
在这里插入图片描述 SGD:move的方向与得到的gradient方向相反；

在这里插入图片描述引入momentum的原因：

Optimizers: Real Application

bert ：ADAM
Transformer ：ADAM
Tacotron ：ADAM
YOLO：SGDM
Mask R-CNN：SGDM
ResNet：SGDM
Big-GAN：ADAM
MAML：ADAM

结论：
Adam：fast training ,large generalization gap,unstable（训练速度快，泛化差距大，不稳定）
SGDM：stable ,little generalization gap,better convergence（稳定，泛化差距小，收敛性好）

结合Adam 和SGDM：SWATS（begin with Adam ,end with SGDM）
在这里插入图片描述 Improving Adam：
问题1：Adam在gradient大部分时候都很小的时候，就会被小的gradient牵着走；
解法1：减少较小的gradient造成的影响
AMSGrand only handles large learning rates
问题2：Learning rates are either extremely large(for small gradients) or extremely small (for large gradients)
解法2：
在这里插入图片描述 ImprovingSGDM：

问题：速度太慢
解决：

LR range test
Cyclical LR：

在这里插入图片描述

SGDR
One-cycle LR
how to warm-up Adam?

比较：

Lookahead：universal wrapper for all optimizers
k step forward,1 step back
lookahead的结果：
预测未来的算法：Nesterov accelerated gadient(NAG)

在这里插入图片描述

Adam in the future

Nadam

optimizer:

在这里插入图片描述套件改进后：

Smoething helps optimization:

Shuffling（洗牌）
Dropout
Gradient noise
Warm-up（热身）
Curriculum learning（课程学习）:Train your model with easy first,then difficult data.Perhaps helps to improve generalization.
Fine-tuning（微调）
Normalization（标准化）
- Regularization（正则化）

总结

SGD和Adam的衍生算法：
在这里插入图片描述两者的特点比较：
应用：

L_cherry_

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
机器学习之New Optimizers for Deep Learning 1（没听懂的读书笔记）

New Optimizers for Deep Learning五个Optimizer：SGDSGD with momentum（SGDM）三个Adaptive learning rate的方法：AdagradRMSPropAdamSome Notations(符号)θt\theta_{t}θt：model parameters at time step t▽L(θt)\triangledown L(\theta_{t})▽L(θt) or gtg_{t}gt：gradi
复制链接

扫一扫