2021秋招-面试高频-优化器算法

最新推荐文章于 2023-03-16 17:02:39 发布

LBJ_King2020

最新推荐文章于 2023-03-16 17:02:39 发布

阅读量456

点赞数 1

分类专栏： 2021秋招

本文链接：https://blog.csdn.net/Tyrionoing/article/details/107052371

版权

2021秋招专栏收录该内容

15 篇文章 1 订阅

订阅专栏

面试高频-优化器算法

常见问题以及要求？

1. 会推导常见的公式：

2. 各个优化器提出的背景，以及各自的优点;

3. 各个优化器存在的问题以及优化器的选择问题。

4. 一些新的优化器的整理

5. 神经网络中 warmup 策略为什么有效；有什么理论解释么？

有助于减缓模型在初始阶段对mini-batch的提前过拟合现象，保持分布的平稳
有助于保持模型深层的稳定性

笔记

⭐图示-梯度下降的可视化解释(Momentum，AdaGrad，RMSProp，Adam)

⭐深度学习优化器总结-太浅了，没有总结清楚，参考分类

机器学习中，有很多方法试图寻找模型的最优解。常见分类:

梯度下降法
动量优化法
自适应学习率优化算法

一、梯度下降法(Gradient Descent)

梯度: 在微积分中，对多元函数的的参数求 $\theta$ 偏导数, 把求得的各个参数的导数以向量的形式写出来就是梯度。 梯度是函数变化最快的地方。 梯度下降是迭代法的一种，在求解机器学习算法的模型参数 [公式] 时，即无约束问题时，梯度下降是最常采用的方法之一。
在这里插入图片描述
评价：梯度下降法主要有两个缺点：

训练速度慢：
每走一步都要计算调整下一步的方向，下山的速度变慢。在应用于大型数据集中，每输入一个样本都要进行一次参数更新，且每次迭代都要遍历所有的样本。会使得训练过程及其缓慢，需要花费很长时间才能得到收敛。
容易陷入局部最优解：
由于是在有限视距内寻找下山的方向。当陷入平坦的洼地，会误以为到达了山地的最低点，从而不会继续往下走。所谓的局部最优解就是鞍点。 落入鞍点，梯度为0，使得模型参数不在继续更新。

梯度下降法目前主要分为三种方法,区别在于每次参数更新时计算的样本数据量不同：

批量梯度下降法(BGD, Batch Gradient Descent)
随机梯度下降法(SGD, Stochastic Gradient Descent)
小批量梯度下降法(Mini-batch Gradient Descent)

1. 批量梯度下降法BGD

在这里插入图片描述

2. 随机梯度下降法SGD

在这里插入图片描述

3. 小批量梯度下降法

在这里插入图片描述

二、动量优化法

在这里插入图片描述

1. Momentum

在这里插入图片描述

2. NAG（Nesterov accelerated gradient）

在这里插入图片描述

三、自适应学习率优化算法

在这里插入图片描述

1. AdaGrad算法（不懂）

像是对于每个类别分别进行更新？不明白在于如何每个类别更新呀？

在这里插入图片描述

2. Adadelta （不懂）

在这里插入图片描述

3. RMSprop（不懂）

在这里插入图片描述

4. Adam: Adaptive Moment Estimation （不懂）

在这里插入图片描述

四、算法的表现

下图是各个算法在等高线的表现，它们都从相同的点出发，走不同的路线达到最小值点。可以看到，Adagrad，Adadelta和RMSprop在正确的方向上很快地转移方向，并且快速地收敛，然而Momentum和NAG先被领到一个偏远的地方，然后才确定正确的方向，NAG比momentum率先更正方向。SGD则是缓缓地朝着最小值点前进。

在这里插入图片描述

Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam

在这里插入图片描述

不推荐-从 SGD 到 Adam —— 深度学习优化算法概览(一)

⭐⭐公式推导清楚-一文看懂常用的梯度下降算法

指数加权移动平均数 Exponentially weighted moving averages

在这里插入图片描述

Momentum optimization

在这里插入图片描述

Nesterov Accelerated Gradient (NAG)

在这里插入图片描述

AdaGrad

在这里插入图片描述

RMSprop

在这里插入图片描述

Adaptive moment estimation (Adam)-讲的最清楚

在这里插入图片描述

局部最优和鞍点

前面说到，我们希望优化算法能够收敛速度快，并且想找到全局最优。对于凸函数来说，其仅有一个极值点，就是全局最优点，如图4所示，此时采用梯度下降算法是可以收敛到最优点的，因为沿着下坡的道路走就可以了。
但是其实现在的深度学习模型是一个庞大的非线性结构，这样其一般是非凸函数，就如图5所示那样，存在很多局部最优点（local optimum），一旦梯度下降算法跳进局部陷阱，可以想象其很难走出来，这就很尴尬了，此时梯度下降算法变得不再那么可靠，因为我们想要的是全局最优。很难找到全局最优，这可能是目前优化算法共同面对的问题，如进化算法。
不过到底深度学习的损失函数是不是存在很多局部最优点呢？前面所有的分析都是基于低维空间，我们很容易观察到局部最优点。但是深度学习的参数一般庞大，其损失函数已经成为了超高维空间。但是Bengio等最新的研究表明，对于高维空间，非凸函数最大的存在不是局部最优点，而是鞍点（saddle point），鞍点也是梯度为0的点，但是它不像局部最优点或者全局最优点。对于局部最优或者全局最优点，其周围的所有方向要朝向上（最小）或者朝向上（最大），但是考虑到参数庞大，很有可能是一部分方向朝下，一部分方向朝上，这就成为了鞍点。意思就是说在高维度空间，不大可能像低维度空间那样出现很多局部最优。而且鞍点也不大可能会成为梯度下降算法的葬身之地。
那么真正影响梯度下降算法会是什么呢？可能是平稳区（plateaus），如果出现大面积梯度很小或者近似为0的区域，那么梯度下降算法就找不到方向，想象你自己站在一望无际的平原，估计你也方向感全无了。当前上面所有的谈论仅是停留在经验，对于高维空间，无论如何很难直观想象，这还是一个历史难题吧。
在这里插入图片描述

补充

RAdam

不用warm-up
别人验证效果不如 warm_up的adam

RAdam、LookAhead 双剑合璧，打造最强优化器

LBJ_King2020

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
2021秋招-面试高频-优化器算法

面试高频-优化器算法笔记梯度下降的可视化解释(Momentum，AdaGrad，RMSProp，Adam)深度学习优化器总结机器学习优化器Optimizer的总结Pytorch中常用的四种优化器SGD、Momentum、RMSProp、Adam
复制链接

扫一扫