一文梳理optimizer

最新推荐文章于 2023-09-21 21:38:47 发布

MaXuwl

最新推荐文章于 2023-09-21 21:38:47 发布

阅读量372

点赞数 1

分类专栏：炼丹学习文章标签：深度学习机器学习 pytorch

本文链接：https://blog.csdn.net/MaXumr/article/details/119967559

版权

13 篇文章 0 订阅

订阅专栏

4 篇文章 2 订阅

订阅专栏

这几天看了李宏毅的深度学习课程，趁此机会梳理一下优化器(optimizer)，并附带pytorch代码

前言

在介绍优化器前，我们要时刻记得：什么是优化器？或者说优化器的作用是什么？
优化器：找到一组 $\theta$ 使得 ${\Sigma}_x L(\theta;x)$ 最小。 这里的x是训练的样本，L是定义的损失函数(loss function)

下面将优化器分成常见的5个基本优化器和之后根据这5个优化器生出的各种变种。

意义
SGD的想法很简单，每次按照梯度的反方向更新参数，同时使用 $\eta$ 来控制更新的步长。初始时使用随机初始的 $\theta^0$
公式
- init: ${\theta}^0$
- update: ${\theta}^t = {\theta}^{t-1} - \eta \nabla L({\theta}^{t-1}) $

意义
仔细观察上面的SGD算法，我们可以发现，当梯度 $\nabla L({\theta})=0$ 后（见图1），参数就不会更新了，这时遇到了两种情况：(1).遇到了局部最小值(local minima) (2). 遇到了鞍点(saddle point)。而实际上，我们遇到鞍点的情况更多。观察鞍点我们发现实际上仍然有更好的 $\theta$ ，只是因为优化算法的问题导致不能再优化了。

图1. 常见的两种梯度为0的情况
这时引入一个动量，让优化器在 $\nabla L({\theta})=0$ 的时候不停止，而是继续探索，于是SGDM算法出来了
公式
- init $\theta^0$ ， $v^0=0$
- update:
  - $v$ : $v^t = \lambda v^{t-1} - \eta \nabla L({\theta}^{t-1})$
  - $\theta$ : $\theta^t = \theta^{t-1} + v^t$
解决的痛点： $\nabla L({\theta})=0$ 时停止优化
亮点：引入时间信息

意义
通过函数可视化的图，我们会发现，当一个位置越 “陡峭”，该位置的梯度值越大(因为梯度是个向量，这里可以把梯度值越大理解为向量中每个值都越大)；当一个位置越 “平缓” ，该位置的梯度值越小（见图2）。这样就会导致在 $\eta$ 固定的时候，在 “陡峭” 的地方，优化器会迈出更大的步长，在 “平缓” 的地方迈出更小的步长。这样就会导致一个问题：优化器来回震荡，优化器很难得到合适的 $\theta$ 。 如图3。
自然，我们想到在 $\eta$ 下面加个分母解决这个问题，并且这个分母能够动态自适应。于是AdaGrad算法出来了

在这里插入图片描述

图2.损失函数

在这里插入图片描述

图3.优化器来回震荡

公式
- init: $\theta^0，\sigma^0=|g^0|$ ，这里为了方便令： $g=\nabla L(\theta)$
- update:
  - ${\theta}^{t} = {\theta}^{t-1}-\frac{\eta}{{\sigma}^{t-1}}g^{t-1}$
  - ${\sigma}^{t-1} = \sqrt{\frac{1}{t}\sum\limits_{i=0}^{t-1} (g^{t-1})^2}$
解决的痛点：让优化器根据周围环境自适应调整步长
亮点：引入空间信息

意义
RMSProP是在AdaGrad算法上进行改进的。AdaGrad算法是对以前所有的梯度值都累加到 $\eta$ 的分母中，这就会导致一个问题：一开始AdaGrad比较大的时候， $\frac{\eta}{\sigma}$ 这个值很小，导致开始优化没几步就卡住。 另外还有一个原因，就是之前的梯度对她的影响都是相同权重的，RMSProP提出让之前的梯度值对后来的影响逐步衰减。
公式
- init: $\theta^0，\sigma^0=||g^0||$ ，这里为了方便令： $g=\nabla L(\theta)$
- update:
  - ${\theta}^{t} = {\theta}^{t-1}-\frac{\eta}{{\sigma}^{t-1}}g^{t-1}$
  - ${\sigma}^t = \sqrt{\alpha {(\sigma^{t-1})}^2 + (1-\alpha){(g^t)}^2}$
解决的痛点：初始化梯度太大时，可能训练几步就动不了
亮点：多了一个 $\alpha$ 来控制最近的梯度大小对当前优化的影响

在这里插入图片描述

图4.上面几种优化器的可视化

关注