深度学习笔记——优化方法

最新推荐文章于 2023-05-12 18:08:16 发布

ysc1006

最新推荐文章于 2023-05-12 18:08:16 发布

阅读量429

点赞数

分类专栏：机器学习文章标签：优化方法

本文链接：https://blog.csdn.net/qq_31827399/article/details/98848900

版权

机器学习专栏收录该内容

8 篇文章 0 订阅

订阅专栏

深度模型中的优化

用于深度模型训练的优化算法与传统的优化算法有几个方面有所不同：

学习	纯优化
间接优化目标函数，以降低泛化误差（通常目标函数不可解，或者是NP难问题）	直接最小化目标函数本身
训练算法通常不会停止在局部极小点	终止在导数较小的地方
训练算法的目标函数通常可以分解为训练样本上的求和（批量算法和小批量算法）	整个样本集

在传统的机器学习问题中，我们会小心设计目标函数和约束，以确保优化问题是凸的。但是即使是凸优化也会遇到问题，何况在训练神经网络是会遇到很多非凸问题。所以，在神经网络优化中会出先很多的挑战：
（1）病态问题：对数据中的小扰动反映特别敏感。在神经网络训练中，会体现在随机梯度下降会“卡”在某些情况，此时即使很小的更新步长也会增加代价函数。
（2）局部极小值：模型可辨识性问题。
（3）鞍点剧增：在低维空间中，局部极小值很普遍，在高维空间中，局部极小点很罕见但鞍点很常见。其中，鞍点和局部极小值的数量比率期望会随着维数n指数级增长。高维空间中鞍点的激增或许就解释了在神经网络训练中为什么二阶方法无法成功取代梯度下降的原因。
（4）悬崖和梯度爆炸：悬崖的产生是因为几个较大权重相乘导致的。遇到斜率极大的悬崖结构时，梯度更新会很大程度改变参数值，可能使大量已经完成的优化工作称为无用功。
（5）长期依赖问题：由于变深的结构使模型丧失了学习到先前信息的能力，让优化变得困难。 这个问题在循环网络中更严重，因为循环网络要在很长时间序列的各个时刻重复应用相同操作来构建非常深的计算图，并且模型参数共享。
（6）非精确梯度： 在优化时，我们需要精确的梯度或Hessian矩阵，但在实际中，当目标函数不可解时，通常梯度是很难处理的，这时，我们只能近似梯度。
（7）局部和全局结构间的弱对应：目前在求解具有困难全局结构问题时，旨在寻求良好的初始点，而不是开发非局部范围更新的算法。

优化算法

1、梯度下降类方法

梯度下降算法 : 在每一次迭代中，梯度下降使用整个训练数据集来计算梯度，因此它有时也被称为批量梯度下降。
随机梯度下降（SGD） :

SGD在第 k 个训练迭代的更新过程如下：

初始化学习率 $\varepsilon_k$ ,参数 $\theta$
while 停机准则 do:
$\space\space\space\space\space\space$ 从训练集中随机抽取包含m个样本{ $x_1,x_2,..,x_m$ }的小批量，其中 $x_i$ 对应的目标为 $y_i$
$\space\space\space\space\space\space$ 计算梯度估计： $\hat g=+\frac{1}{m}\bigtriangledown_\theta\sum_iL(f(x_i;\theta),y_i)$
$\space\space\space\space\space\space$ 应用更新： $\theta=\theta-\varepsilon\hat g$
end while

之前我们用的都是固定的学习率，在实践中，是有必要随着时间的推移逐渐降低学习率的，常使用线性衰减学习率直到 $\tau$ 次迭代： $\varepsilon_k=(1-\alpha)\varepsilon_0+\alpha\varepsilon_\tau$ 其中 $\alpha=\frac{k}{\tau}$ 。在 $\tau$ 步迭代后，一般使学习率为常数。一般地，设为的 1%， $\tau$ 被设为需要反复遍历训练集几百次的迭代次数。现在关键是如何设置 $\varepsilon_0$ 。 $\varepsilon_0$ 太大的，学习曲线会剧烈震荡，代价函数值通常会明显增加，如果太小，学习过程会很缓慢，初始学习率太低，那么学习可能会卡在一个相当高的代价值。通常，最好是检测最早的几轮迭代，选择一个比在效果上表现最佳的学习率更大的学习率，但也不能导致太大的震荡。

（1）SGD的优点是：收敛快
（2）缺点：需要手动选取合适的学习率和初始参数，易被困局部最优。

Mini-batch Gradient Descent :小批量梯度下降算法，是折中方案，选取训练集中一个小批量样本计算，这样可以保证训练过程更稳定，而且采用批量训练方法也可以利用矩阵计算的优势。

2、动量

动量算法积累了之前梯度指数级衰减的移动平均，并且继续沿着该方向移动。
动量在物理学定义为质量乘以速度，这里，假设是单位质量。参数更新规则如下： $v=\alpha v-\varepsilon\bigtriangledown_\theta(\frac{1}{m}\sum_iL(f(x_i;\theta),y_i))$ $\theta=\theta+v$ $\alpha\in[0,1)$ ,实际运用中， $\alpha$ 一般取值0.5，0.9，0.99。速度v积累了梯度，相对于 $\varepsilon，\alpha$ 越大，之前梯度对现在方向的影响也越大。

使用动量的SGD：

初始化学习率 $\varepsilon$ ,参数 $\theta$ ，动量参数 $\alpha$ ，初始速度 v
while 停机准则 do:
$\space\space\space\space\space\space$ 从训练集中随机抽取包含m个样本{ $x_1,x_2,..,x_m$ }的小批量，其中 $x_i$ 对应的目标为 $y_i$
$\space\space\space\space\space\space$ 计算梯度估计： $\hat g=\frac{1}{m}\bigtriangledown_\theta\sum_iL(f(x_i;\theta),y_i)$
$\space\space\space\space\space\space$ 计算速度估计： $v=\alpha v-\varepsilon\hat g$
$\space\space\space\space\space\space$ 应用更新： $\theta=\theta+v$
end while

优点：解决了两个问题：Hessian矩阵的病态条件和随机梯度的方差；收敛速度较快。
代价是引入了另一个超参数速度 v
Nesterov 动量
Nesterov 动量是动量算法的一个变种，参数变化规则如下：： $v=\alpha v-\varepsilon\bigtriangledown_\theta(\frac{1}{m}\sum_iL(f(x_i;\theta+\alpha v),y_i))$ $\theta=\theta+v$
在凸批量梯度情况下，收敛速度明显改善；但是在随机梯度下，并没有效果。

3、自适应学习率算法

（1）Delta-bar-delta : 早期的一种启发式方法，思想是，若损失对于某个给定模型参数的偏导保持相同符号，则学习率保持增加，反之，减少。（这种方法只能用于全批量优化中）
（2）AdaGrad :
参数更新规则： $累计梯度平方：r=r+\hat g\odot\hat g$ $\Delta\theta =- \frac{\epsilon}{\delta+\sqrt{r}} \odot \hat g$ $\theta=\theta+\Delta\theta$ 常数 $\delta$ 一般设置为 $10^{-7}$ 保证分母是非零的很小的数。

Adagrad 算法在具有最大偏导的参数相应地有一个快速下降的学习率，而在具有较小偏导的参数在学习率上有相对较小的下降。
缺点：依赖手工设置一个全局学习率；Adagrad 在迭代中后期，分母梯度平方的累加将会越来越大，使梯度趋向于0，训练提前结束。
（3）RMSProp :
RMSProp是Adagrad 的一次改进，相对Adagrad 在非凸条件下更好；
Adagrad 会加上之前所有的梯度，而 RMSProp会丢弃之前的一部分值，从而能更快的收敛。
RMSProp会引入一个新超参数衰减速率 $\rho$ ,以控制移动平均的长度范围。
$累计梯度平方：r=\rho r+(1-\rho)\hat g\odot\hat g$ $\Delta\theta =- \frac{\epsilon}{\delta+\sqrt{r}} \odot \hat g$ $\theta=\theta+\Delta\theta$

（4）Adam ：
Adam本质上是带动量的RMSProp，其特点如下：

Adam梯度经过偏置矫正后，每一次迭代学习率都有一个固定的范围，它利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率，使得参数比较平稳；
结合了Adgard处理稀疏梯度和RMSProp处理非平稳目标的优点
为不同的参数计算不同的学习率
Adam也适用于大多数非凸优化问题，也适用于大数据集和高维空间。
参数更新规则：
$更新有偏的一阶矩估计：s=\rho_1 s+(1-\rho_1)\hat g$ $更新有偏的二阶矩估计：r=\rho_2 r+(1-\rho_2)\hat g\odot\hat g$ $修正一阶矩的偏差\hat s = \frac{s}{1-\rho_{1}^{t}}$ $修正二阶矩的偏差\hat r = \frac{r}{1-\rho_{2}^{t}}$ $\Delta\theta=-\frac{\hat s}{\sqrt{\hat t}+\delta}$ $\theta=\theta+\Delta\theta$

4、二阶近似方法

二阶方法主要是使用二阶导数改进了优化。
（1）牛顿法
$\Delta\theta=-H^{-1}g$
最大的缺点就是需要计算Hessian矩阵（只能是正定的）。对于出现鞍点的情况，可以使用带正则的牛顿法。
（2）共轭梯度法（CG）：
共轭梯度法是一种通过迭代下降的共轭方向以避免Hessian矩阵求逆计算的方法。在共轭梯度法中，我们寻求一个和先前搜索方向共轭的方向，即它不会撤销该方向的发展。

计算梯度 $\hat g_t$
计算系数 $\beta_t$ ,用于控制沿先前搜索方向 $d_{t-1}$ 加回多少到当前搜索方向 $d_t$ 上（计算方式有 $F l e t c h e r - R e e v e s$ 和 $Polak-Ribi\grave{e}re$ ，对于非线性共轭梯度，视情况置为0）
计算搜索方向： $d_t=-\hat g_t+\beta_td_{t-1}$
执行线性搜索： $\epsilon^*=\arg\min_\epsilon\frac{1}{m}\sum_i^mL(f(x_i;\theta_t+\epsilon d_t),y_i)$
更新： $\theta_{t+1}=\theta_t+\epsilon^* d_t$
（3）拟牛顿方法
拟牛顿方法是构造一个矩阵近似Hessian的逆，避免了直接求解复杂的逆运算和Hessian非正定的情况。有DFP 、BFGS和L-BFGS。
https://blog.csdn.net/qq_31827399/article/details/97893761