【深度学习笔记】6 优化算法

最新推荐文章于 2024-01-17 17:21:12 发布

NirReb

最新推荐文章于 2024-01-17 17:21:12 发布

阅读量667

点赞数

分类专栏：【深度学习笔记】

本文链接：https://blog.csdn.net/YQ5089640/article/details/106969444

版权

【深度学习笔记】专栏收录该内容

8 篇文章 0 订阅

订阅专栏

文章目录

参考

Divi-into-DL-pytorch
李宏毅课程 P5
https://blog.csdn.net/google19890102/article/details/69942970
https://zhuanlan.zhihu.com/p/22252270

局部极小值和鞍点

函数 $f (x) = x \cdot c o s (π x), - 1.0 \leq x \leq 2.0$ 中存在局部极小值

在这里插入图片描述函数 $f(x)=x^3$ 中存在鞍点

二维空间函数 $f(x,y)=x^2-y^2$ 的鞍点，在X轴上是局部最小值，在Y轴上是局部最大值

假设一个函数的输入为 $k$ 维向量，输出为标量，那么它的海森矩阵（Hessian matrix）有 k 个特征值。该函数在梯度为0的位置上可能是局部最小值、局部最大值或者鞍点。

当函数的海森矩阵在梯度为零的位置上的 特征值全为正 (正定矩阵)时，该函数得到局部最小值。
当函数的海森矩阵在梯度为零的位置上的 特征值全为负 （负定矩阵）时，该函数得到局部最大值。
当函数的海森矩阵在梯度为零的位置上的 特征值有正有负 时，该函数得到鞍点。

随机矩阵理论告诉我们，对于一个大的高斯随机矩阵来说，任一特征值是正或者是负的概率都是0.5。那么，以上第一种情况的概率为 $0.5^k$ .由于深度学习模型参数通常都是高维的（k很大），目标函数的鞍点通常比局部最小值更常见。

梯度下降 gradient descent

根据泰勒公式我们有以下近似 $f(x+\epsilon) \approx f(x) +\epsilon f'(x)$

找到一个 $\eta>0$ 使得 $|\eta f'(x)|$ 足够小，令 $\epsilon = -\eta f'(x)$ 有
$f(x-\eta f'(x)) \approx f(x)-\eta (f'(x))^2 ≲ f(x)$
所以我们有 $\eta>0$ ,通过迭代 x $\leftarrow x-\eta f'(x)$
这样函数 $f (x)$ 的值可能会降低。 $\eta$ 称为学习率，太小 $f (x)$ 降低地缓慢，太大无法保证前面泰勒公式成立，无法保证 $f (x)$ 值一定降低。

$x^2,\eta=0.05$	$x^2,\eta = 1.1$

随机梯度下降

在深度学习里，目标函数通常是训练数据集中有关各个样本的损失函数的平均。设样本
$x^ {(i)} = [x^{(i)}_1,x^{(i)}_2,\dots ,x^{(i)}_m],i=1,2 \dots n$
$w$ 为模型的参数向量，目标函数定义为
$\dfrac{1}{n} \sum_{i=1}^n f (x^{(i)},w)$
目标函数在 w 处的梯度为
$\nabla f(x,w) = \dfrac{1}{n} \sum_{i=1}^n \nabla f(x^{(i)},w)$

如果使用梯度下降，每次自变量迭代的计算开销为 $O (n)$ ，它随着 $n$ 线性增长。因此，当训练数据样本数很大时，梯度下降每次迭代的计算开销很高。

随机梯度下降（stochastic gradient descent，SGD）减少了每次迭代的计算开销。在随机梯度下降的每次迭代中，我们随机均匀采样的一个样本索引 $\in {1,…,n}$ ，并计算梯度 $\nabla f(x^{(i)},w)$ 来迭代 w
$\leftarrow w-\eta \nabla f(x^{(i)},w)$
可以看到每次迭代的计算开销从梯度下降的 O(n) 降到了常数 $O (1)$ 。随机梯度 $\nabla f(x^{(i)},w)$ 是对梯度 $\nabla f(x,w)$ 的无偏估计：
$E(\nabla f(x^{(i)}),w)= \sum_{i=1}^n \nabla f(x^{(i)},w)*\dfrac{1}{n}(均与分布概率1/n) = \dfrac{1}{n} \sum_{i=1}^{n} \nabla f(x^{(i)},w)=\nabla f(x,w)$
这意味着，平均来说，随机梯度是对梯度的一个良好的估计。

小批量随机梯度下降

梯度下降是用全部的训练集(n个)，随机梯度下降每次随机使用一个数据（1个）。我们可以折中一下每次随机抽取 $|\Beta|$ 个， $\Beta$ 为一个随机的 mini-batch序号
$g_t(\Beta_t)=\nabla f(x^{\Beta_t},w_{t-1})=\dfrac{1}{|\Beta_t|}\sum_{i \in \Beta_t} \nabla f(x^{(i)},w_{t-1})$
$w_t \leftarrow w_{t-1}-\eta_t g_t=w_{t-1} - \dfrac{\eta_t}{|\Beta_t|}\sum_{i \in \Beta_t} \nabla f(x^{(i)},w_{t-1})$

每次从 n 个重复采样 $|\Beta|个$ 的 $g_t$ 是 $\nabla f(x,w_{t-1})$ 的无偏估计(没看懂)

基于随机采样得到的梯度的方差在迭代过程中无法减小，因此在实际中,(小批量)随机梯度下降的学习率可以在迭代过程中自我衰减，例如 $η_t=η_t^α$ 通常 $α = - 1$ 或者 $- 0.5$ $η_t=ηα^t$
如 $α = 0.95$ ,或者每迭代若干次后将学习率衰减一次。如此一来，学习率和（小批量）随机梯度乘积的方差会减小。而梯度下降在迭代过程中一直使用目标函数的真实梯度，无须自我衰减学习率。

Pytorch

torch.optim.SGD(params, lr=<required parameter>, momentum=0, dampening=0, weight_decay=0, nesterov=False)

weight_dacay 权重衰减等价于L2范数正则化(L2 penalty)，通常会使学到的权重参数的元素较接近0

动量法

动量法使得相邻时间步的自变量更新在方向上更加一致（不会出现太大的震荡）

指数加权平均

$\tag{1}{ \begin{aligned} y_t &=(1-\gamma)x_t + \gamma y_{t-1}\\ & =(1-\gamma)x_t \underbrace{(1-\gamma)\gamma x_{t-1}+\gamma^2y_{t-2}}_{\text{$\boxed {\gamma y_{t-1}=\gamma(1-\gamma)x_{t-1}+\gamma^2y_{t-2}}$}} \\ &=(1-\gamma)x_{t}+(1-\gamma)\gamma x_{t-1}+(1-\gamma)\gamma^2x_{t-2}+\gamma^3y_{t-3} \\ \xRightarrow{n=\frac{1}{1-\gamma}} & \dfrac{1}{n}x_{t}+\dfrac{1}{n}*(1-\dfrac{1}{n})x_{t-1}+ \dfrac{1}{n}*(1-\dfrac{1}{n})^2x_{t-2}+(1-\dfrac{1}{n})^3y_{t-3} \\ &=\dfrac{1}{n}\sum_{i=0}^{k}(1-\dfrac{1}{n})^{k}x_{t-k} +(1-\dfrac{1}{n})y_{t-(k+1)} \end{aligned} }$
忽略最后一个高阶项，我们可以将 $y_t$ 看成当前时刻 t 及之前 k 次
$\{x_t,x_{t-1},\dots x_{t-k}\}$
的加权和，权重为 $(1-\dfrac{1}{n})^k$ ,k越大（离当前时刻t越远）权重越小
$(1-\dfrac{1}{n})^n=(1-1+\gamma)^n=\gamma^n=\gamma^{(\dfrac{1}{1-\gamma})}=\dfrac{1}{\gamma^{(1-\gamma)}}$
由
$\lim_{x \rightarrow \infty }(1+\dfrac{1}{x})^x = e$ 得
$\lim_{n \rightarrow \infty} (1-\dfrac{1}{n})^n=\lim_{-n \rightarrow \infty} [(1+\dfrac{1}{-n})^{(-n)}]^{-1}=e^{-1}=\dfrac{1}{e}\approx0.3679$

当 $\gamma \rightarrow 1,(1-\dfrac{1}{n})^n \rightarrow \dfrac{1}{e}$
举个例子说明，当 $\gamma =0.95, (1-\gamma)=0.05,n=\dfrac{1}{0.05}=20$
带入(1)式有
$\boxed {y_t = 0.05 \sum_{i=0}^{20} 0.95^i x_{t-i}} + 0.95^{21} x_{t-(i+1)}$

动量法

$\begin{aligned} v_t &= \gamma v_{t-1}+ \eta_t g_t \\ w_t &= w_{t-1}-v_t \end{aligned}$
其中
$\begin{aligned} v_t &=\gamma v_{t-1} + (1-\gamma) [\dfrac{\eta_t}{1-\gamma} g_t] \\ &=\dfrac{1}{n}\sum_{i=0}^{k}(1-\dfrac{1}{n})^{k}[\dfrac{\eta_t}{1-\gamma} g_t]_{t-k} +(1-\dfrac{1}{n})v_{t-(k+1)} \end{aligned}$
可以看到动量法当前时刻的梯度 $v_t$ 近似的看成
$\dfrac{\eta_t}{1-\gamma} g_t,\dfrac{\eta_t}{1-\gamma} g_{t-1},\dots,\dfrac{\eta_t}{1-\gamma} g_{t-k}$
即之前梯度的加权平均

$f(x)=0.1x_1^2+2x_2^2$ 图像

	无动量	有动量
$\eta =0.4$ $(\gamma = 0.5)$
$\eta =0.6$ $(\gamma = 0.5)$

动量通常设置 0.9

Nesterov加速梯度下降法（Nesterov accelerated gradient，NAG）

在这里插入图片描述
$\begin{aligned} v_t &= \gamma v_{t-1} +\eta \nabla_w f(w_{t-1}- \gamma v_{t-1}) \\ w_t &= w_{t-1}-v_t \end{aligned}$

Adagrad 法

首先各个维度上单独计算
$s_t= s_{t-1} + g_t \odot g_t$
$w_t = w_{t-1}+\dfrac{\eta}{\sqrt{s_t + \epsilon }} \odot g_t$

$\odot$ 是按元素乘法，首先为什么采用这个形式
在这里插入图片描述

也就是说当采样足够多的时候，可以用一阶梯度的平方和再开根号估计。

需要强调的是，小批量随机梯度按元素平方的累加变量 $s_t$ 出现在学习率的分母项中。因此，如果目标函数有关自变量中某个元素的偏导数一直都较大，那么该元素的学习率将下降较快；反之，如果目标函数有关自变量中某个元素的偏导数一直都较小，那么该元素的学习率将下降较慢。然而，由于 $s_t$ 一直在累加按元素平方的梯度，自变量中每个元素的学习率在迭代过程中一直在降低（或不变）。所以，当学习率在迭代早期降得较快且当前解依然不佳时，AdaGrad算法在迭代后期由于学习率过小，可能较难找到一个有用的解。

Pytorch

torch.optim.Adagrad(params, lr=0.01, lr_decay=0, weight_decay=0, initial_accumulator_value=0, eps=1e-10)

RMSProp 法

RMSProp 法是针对Adagrad 法的缺点来设计的，Adagrad 的问题是分母是之前所有的梯度平方和再开根号，这个值是不断增大的，现在 RMSProp 改为之最近 $1/(1-\gamma)$ 个时间步的梯度平方和而不是之前所有的，这样这个值不会一直增大，学习率不会一直减小。

$s_t = \gamma s_{t-1}+(1-\gamma) g_t \odot g_t$
$w_t =w_{t-1}-\dfrac{\eta}{\sqrt{s_t+\epsilon}} \odot g_t$

Pytorch

torch.optim.RMSprop(params, lr=0.01, alpha=0.99, eps=1e-08, weight_decay=0, momentum=0, centered=False)

AdaDelta 法

与 RMSProp 相比 AdaDelta 使用 $\Delta w$ 来代替 $\eta$
$\begin{aligned} s_t &= \rho s_{t-1}+(1-\rho) g_t \odot g_t \\ g_t' &=\sqrt{\dfrac{\Delta x_{t-1}+\epsilon}{s_t+\epsilon}} \\ w_t &= w_{t-1}-g_t' \\ \Delta w_t &= \rho \Delta w_{t-1}+(1-\rho)g_t' \odot g_t' \end{aligned}$

Pytorch

torch.optim.Adadelta(params, lr=1.0, rho=0.9, eps=1e-06, weight_decay=0)

Adam 法

Adam算法在RMSProp算法基础上对小批量随机梯度也做了指数加权移动平均。
Adam算法使用了偏差修正
$\begin{aligned} v_t &= \beta_1 v_{t-1}+(1-\beta_1)g_t \\ s_t &= \beta_2 s_{t-1}+(1-\beta_2) g_t \odot g_t \end{aligned}$

其中 $\le \beta_1,\beta_2 \le 1$ 作者推荐 $\beta_1 = 0.9,\beta_2 = 0.999$

按前面指数加权平均的方法展开
$\begin{aligned} v_t &= \beta_1 v_{t-1}+(1-\beta_1)g_t \\ & = (1-\beta_1)g_t +(1-\beta_1)\beta_1 g_{t-1}+\beta_1^2 v_{t-2} \\ & = (1-\beta_1)g_t +(1-\beta_1)\beta_1 g_{t-1} +(1-\beta_1)\beta_1^2 g_{t-2} +\beta_1^3 g_{t-3} \\ & = (1-\beta_1) \sum_{i=0}^k \beta_1^k g_{t-k} +\beta_1^{k+1} g_{t-(k+1)} \end{aligned}$

省略最后一项
$v_t = (1-\beta_1) \sum_{i=0}^k \beta_1^k g_{t-k}$

是一个加权和，权重求和
$(1-\beta_1)\sum_{i=0}^t \beta_1^t=(1-\beta_1) \dfrac{\beta_1^{t}-1}{\beta_1-1}=1-\beta_1^t$

偏差修正就是让权重和为1，即乘以 $\dfrac{1}{1-\beta_1^t}$
所以 $\boxed {v_t = \dfrac{ \beta_1 v_{t-1}+(1-\beta_1)g_t}{1-\beta_1^t}}$
同理 $\boxed {s_t =\dfrac{ \beta_2 s_{t-1}+(1-\beta_2) g_t \odot g_t}{1-\beta_2^t}}$

然后 $g_t' = \dfrac{\eta v_t}{\sqrt{s_t+\epsilon}}$
$w_t = w_{t-1}-g_t'$

Pytorch

torch.optim.Adam(params, lr=0.001, betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

amsgrad On the Convergence of Adam and Beyond

算法可视化

右图我们看到不同算法在损失曲面的等高线上走的不同路线。所有的算法都是从同一个点出发并选择不同路径到达最优点。注意：Adagrad，Adadelta和RMSprop能够立即转移到正确的移动方向上并以类似的速度收敛，而动量法和NAG会导致偏离。然而，NAG能够在偏离之后快速修正其路线，因为NAG通过对最优点的预见增强其响应能力。

左图不同算法在鞍点出的行为，鞍点即为一个点在一个维度上的斜率为正，而在其他维度上的斜率为负，SGD，动量法和NAG在鞍点处很难打破对称性，尽管后面两个算法最终设法逃离了鞍点。而Adagrad，RMSprop和Adadelta能够快速想着梯度为负的方向移动，其中Adadelta走在最前面。|

NirReb

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
【深度学习笔记】6 优化算法

文章目录局部极小值和鞍点梯度下降 gradient descent随机梯度下降小批量随机梯度下降局部极小值和鞍点函数 f(x)=x⋅cos(πx),−1.0≤x≤2.0f(x)=x⋅cos(πx),−1.0≤x≤2.0f(x)=x⋅cos(πx),−1.0≤x≤2.0 中存在局部极小值函数 f(x)=x3f(x)=x^3f(x)=x3 中存在鞍点二维空间函数 f(x,y)=x2−y2f(x,y)=x^2-y^2f(x,y)=x2−y2 的鞍点，在X轴上是局部最小值，在Y轴上是局部最大值假
复制链接

扫一扫