【深度学习-笔记】(1)--优化器

spongia丶

已于 2022-08-16 17:36:14 修改

阅读量1k

点赞数 1

分类专栏：深度学习笔记文章标签：算法 python

于 2021-11-17 11:57:08 首次发布

本文链接：https://blog.csdn.net/Myblog_7267/article/details/120953720

版权

深度学习笔记专栏收录该内容

2 篇文章 0 订阅

订阅专栏

【深度学习-笔记】(1)–优化器

个人笔记，记录思考过程，已注明参考文献。
如果你看不懂他，可以试着先去接受他。就好像，打不过就加入。

文章目录

**【深度学习-笔记】(1)--优化器**

一、优化器

1. 梯度下降相关

1.1 梯度下降法（Gradient Descent Algorithm，GD）

一层感知机的正向传递过程
在这里插入图片描述

$a_{1}^{[l-1]}$ ：表示第 $[l - 1]$ 层中第 $1$ 个感知机的输出。那么第 $[l - 1]$ 层的总输出为 $a^{[l-1]}$ 。
$W_{i,1}^{[l]}$ ：”表示第 $[l]$ 层的第 $i$ 个感知机上的对应上一层第 $1$ 个输入的权重信息。而 $b_{i}^{[l]}$ 表示偏置。
那么第 $[l]$ 层将所有输入整合过后的结果为 $z_{i}^{[l]}$ ,计算过程为：

在这里插入图片描述

最后通过激活函数（sigmoid）得到该感知机的输出
$\sigma(z_{i}^{[l]})=a_{i}^{[l]}$
多个感知机的正向传递过程
在这里插入图片描述

那么，隐藏层的输出结果可以假设为 $a^{[l]}$ （二分类任务中）或者是 $a_{i}^{[l]}$ （多分类任务中）
引入损失函数

这里使用交叉熵损失函数（PS：详见第二章第一节交叉熵损失函数），简单定义为：
$J(y^{(k)},a^{[l](k)})$
其中， $y^{(k)}$ 表示标签，来源于人工标注，可以是分类任务的 ${label}$ ，亦或是分割任务中的 ${mask}$ 。
具体的，输入数据定义为： ${x=(x^{(1)},x^{(2)},..,x^{(k)},...,x^{(m)}}$ , ${m}$ 表示一个batch的大小， ${k}$ 为一个 ${batch}$ 中的第 ${k}$ 个数据。
对于像素级的分割任务来说，每个像素点都是有具体划分的，因此，
在这里插入图片描述
${x_{1}^{(k)}}$ 表述第 ${k}$ 个数据中的第一个像素点的值。而 ${a_{1}^{(0)}}$ 则为第0层中第1个像素点的输出。
那么综上，损失已经得到，下面开始反向传播。
反向传播

以上过程为反向传播的具体公式表示。 $\eta$ 表示学习率 $l r$ 。
可以看到，梯度下降法是基于输入数据量大小进行计算的。

1.2 批量梯度下降法（Batch Gradient Descent, BGD）

批量梯度下降法是最原始的形式，相对于 ${1.1}$ 中所描述的一样，这里是指所有的样本（整个数据集）。
优点：
（1）一次迭代是对所有样本进行计算，此时利用矩阵进行运算，实现了并行。
（2）由全数据集确定的方向能够更好地代表样本总体，从而更准确地朝向极值所在的方向。当目标函数为凸函数时，批量梯度下降一定能够得到全局最优解。
缺点：
（1）有时我们会遇到样本数目 m 很大的训练集合，如果有几十上百万，甚至上亿的训练样本。这意味着我们每执行一次批梯度下降算法，都要对m个样本进行求和。我们的程序也就需要检测这上百万的样本，甚至我们完成值下降的第一步都十分困难。这样会导致，训练过程很慢，花费很长的时间。

1.3 随机梯度下降法（Stochastic Gradient Descent, SGD）

相比于批量梯度下降取全部样本的交叉熵之和后去平均的方法，随机梯度下降则将交叉熵平方后再除以2，意思是说每次迭代使用一个样本来对参数进行更新。这样能够使训练速度加快。（batch_size=1）
优点：
（1）由于不是在全部训练数据上的损失函数，而是在每轮迭代中，随机优化某一条训练数据上的损失函数，这样每一轮参数的更新速度大大加快。
缺点：
（1）准确度下降。由于即使在目标函数为强凸函数的情况下，SGD仍旧无法做到线性收敛。
（2）可能会收敛到局部最优，由于单个样本并不能代表全体样本的趋势。
（3）不易于并行实现。

1.4 小批量梯度下降法（Mini-batch Gradient Descent, MBGD）

考虑到批梯度的方式在每次迭代时都要使用到所有的样本，这徒然增加了计算成本，因此，小批量梯度下降法（MBGD）利用了部分样本代替所有样本来参与计算的思想，引入了mini-batch的概念。
假定mini-batch为10个样本，总样本为100个，则每10个样本进行一次改变权值。可以认为mini-batch等于batch，所以，batch的大小直接影响了模型的训练速度与寻优能力。
batch的选择带来的影响：
（1）在合理地范围内，增大batch的好处：
a. 内存利用率提高了，大矩阵乘法的并行化效率提高。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，对于相同数据量的处理速度进一步加快。
c. 在一定范围内，一般来说 Batch_Size 越大，其确定的下降方向越准，引起训练震荡越小。
（2）盲目增大batch的坏处：
a. 内存利用率提高了，但是内存容量可能撑不住了。
b. 跑完一次 epoch（全数据集）所需的迭代次数减少，要想达到相同的精度，其所花费的时间大大增加了，从而对参数的修正也就显得更加缓慢。
c. batch增大到一定程度，其确定的下降方向已经基本不再变化。
优点：
（1）通过矩阵运算，每次在一个batch上优化神经网络参数并不会比单个数据慢太多。
（2）每次使用一个batch可以大大减小收敛所需要的迭代次数，同时可以使收敛到的结果更加接近梯度下降的效果。(比如上例中的30W，设置batch_size=100时，需要迭代3000次，远小于SGD的30W次)
（3）可实现并行化。
缺点：
（1）batch_size的不当选择可能会带来一些问题。

2. 动量法相关

写在前面： $\theta$ (参数)的移动基于动量 $m_{t}$ 。

2.1 动量法（Momentum）

在这里插入图片描述
动量法在实际梯度优化时表现方式如上图所示。其具体公式如下：
$g_{t}=\nabla J(\theta_{t-1})\\ {m}_{t}=\beta_{1}*{m}_{t-1}-{lr} *{g}_{t} \\ \theta=\theta_{t-1}+{m}_{t}$
其中， ${m}_{t}$ 是一阶动量， $\beta_{1}$ 是动量因子， $t$ 表示迭代的次数， ${lr}$ 表示学习率， $J$ 为模型目标函数， $\theta_{t}$ 表示当前迭代时需要更新的模型参数， $g_{t}$ 是目标函数的梯度。

2.2 Nesterov Momentum

$m_{t}=\beta_{1} * m_{t-1}-{lr}* \nabla J\left(\theta_{t-1}+\beta_{1} * m_{t-1}\right) \\ \theta_{t}=\theta_{t-1}+m_{t}$

5. Adagrad

针对于学习率，对学习率进行自适应约束，间接影响参数。
$n_{t}=n_{t-1}+g_{t}^{2} \\ \Delta \theta_{t}=-\frac{lr}{\sqrt{n_{t}+\varepsilon}} * g_{t} \\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t}$
其中 $\varepsilon$ 很小，为了保证分母不为0； $n_{t}$ 是梯度平方的累积，为二阶动量，初始为0；
优点：不需要手工调节学习率，在稀疏数据场景下效果较好，对于经常更新的参数，我们已经积累了大量关于它的知识，不希望被单个样本影响太大，希望学习速率慢一些；对于偶尔更新的参数，我们了解的信息太少，希望能从每个偶然出现的样本身上多学一些，即学习速率大一些。
缺点：随着时间的增长，单调增长，单调减少，有可能过早的变为0，训练过早的结束。而且依然依赖与人工设定的学习率。

6. RMSprop

由于AdaGrad单调递减的q学习率变化过于激进，RMSprop只关注过去一段时间的梯度平均值，离的时间越远越不重要。
$n_{t}=\beta_{1} n_{t-1}+\left(1-\beta_{1}\right) g_{t}^{2} \\ \Delta \theta_{t}=-\frac{lr}{\sqrt{n_{t}+\varepsilon}} * g_{t} \\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t}$
$n_{t}$ 是梯度平方的累积，为二阶动量，初始为0； ${\beta}_{1}$ 为动量因子。

7. Adadelta

RMSprop依然需要自己设定全局学习率，因此Adadelta在RMSprop的基础上，用参数更新的平方来替代全局学习率的位置，这样就可以省略全局学习率了。
解决两个问题：
1.在整个训练过程中，学习率不断下降；
2.需要手动选择全局学习率。
$n_{t}=\beta_{1} n_{t-1}+\left(1-\beta_{1}\right) g_{t}^{2} \\ V_{t}=\gamma V_{t-1}+(1-\gamma) \triangle \theta_{t}^{2} \\ \Delta \theta_{t}=-\frac{\sqrt{V_{t}+\varepsilon}}{\sqrt{n_{t}+\varepsilon}} * g_{t} \\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t}$

8. 自适应矩估计（Adaptive moment estimation，Adam）

融合一阶动量和二阶动量。
$m_{t}=\beta_{1} m_{t-1}+\left(1-\beta_{1}\right) g_{t}\\ n_{t}=\beta_{2} n_{t-1}+\left(1-\beta_{2}\right) g_{t}^{2}$
因为当 $m_{t}$ 和 $n_{t}$ 一开始被初始化为 0 时，最初的几步通常会偏向0，表示参数更新太慢。
他们使用偏差纠正系数，来修正一阶矩和二阶矩的偏差：
$\hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{n_{t}}=\frac{n_{t}}{1-\beta_{2}^{t}} \\ \Delta \theta_{t}=-\eta * \frac{\hat{m}_{t}}{\sqrt{\hat{n}_{t}+\varepsilon}} \\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t}$

9.AdamW

$\hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{n_{t}}=\frac{n_{t}}{1-\beta_{2}^{t}} \\ \Delta \theta_{t}=-\eta *( \frac{\hat{m}_{t}}{\sqrt{\hat{n}_{t}+\varepsilon}}+\lambda{\theta_{t-1}} )\\ \theta_{t}=\theta_{t-1}+\Delta \theta_{t}$

二、损失函数

1.交叉熵损失函数

什么是交叉熵损失函数？

二分类

在二分的情况下，模型最后需要预测的结果只有两种情况，对于每个类别我们的预测得到的概率为p和 1-p ，此时表达式为：
$L=\frac{1}{N} \sum_{i} L_{i}=\frac{1}{N} \sum_{i}-\left[y_{i} \cdot \log \left(p_{i}\right)+\left(1-y_{i}\right) \cdot \log \left(1-p_{i}\right)\right]$
其中：
${y}_{i}-表示样本i的label，正类为1，负类为0 \\ {p}_{i}-表示样本i预测为正类的概率$

三、功能函数

1.均值函数（mean function）—>可以用期望表示 $E (X)$

1）标题算术平均数（Arithmetic Mean）
在这里插入图片描述

优点：相比于中位数、众数，更少收到随机因素的影响
缺点：更容易收到极端值（biased value）的影响
2) 几何平均数（Geometric Mean）
在这里插入图片描述
优点:适用于对比率数据的平均，主要用于计算数据平均增长率
3) 调和平均数（Harmonic Mean）

优点：计算平均速率，感觉很多paper都在用，用于计算平均速率
4) 平方平均数（Quadratic Mean）

优点：是2次方的广义平均数的表达式。可以定义在连续区间。常用来计算一组数据与某个数据之间的平均差。

2.协方差函数（covariance function）

1）协方差
对于单一的随机变量，我们考虑其期望 ${E(X)}$ 与方差 ${D(X)}$ 。
当想比较两个随机变量，我们引入了协方差(两个随机变量可以对应数据分析中的两个字段，即可以不属于同一定义域)。协方差，看名字就知道，其定义来源于方差。对两个随机变量X和Y，其协方差就是：
在这里插入图片描述
2）协方差函数
设随机过程为 ${X(t)}$ ，定义域为 $D$ ， $t_{1}$ , $t_{2}$ $\epsilon$ $D$ ，定义协方差函数 ${C_{X}(t_{1},t_{2})}$ 为 $t_{1}$ 与 $t_{2}$ 的协方差，形成的函数。
$C_{X}\left(t_{1}, t_{2}\right)=E\left\{\left[X\left(t_{1}\right)-\mu_{X}\left(t_{1}\right)\right]\left[X\left(t_{2}\right)-\mu_{X}\left(t_{2}\right)\right]\right\}$