李宏毅深度学习--《Tips for Deep Learning》

最新推荐文章于 2024-07-20 18:08:50 发布

白色的生活

最新推荐文章于 2024-07-20 18:08:50 发布

阅读量345

点赞数

分类专栏：李宏毅DeepLearning 文章标签：深度学习机器学习人工智能

本文链接：https://blog.csdn.net/GuoShao_/article/details/126598795

版权

李宏毅DeepLearning 专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Tips for Deep Learning

Deep Learning策略:
Vanishing Gradient Problem
ReLU
Leaky ReLU and Parametric ReLU：
Maxout：
How to train Maxout：
Adaptive Learning Rate：
Early Stopping：
Regularization：
Dropout：
总结图片

Deep Learning策略:

在这里插入图片描述

$deep\ learning$ 不像传统的机器学习那样够确保在 $training\ data$ 上取得很高的正确率(像 $K NN 、 D T$ 决策数能够使 $training\ data$ 取得 $100\%$ 正确率)；所以对于 $deep\ learning$ 来说，检查 $over\ fitting$ 不是首要的事，首要的是要检查是否在 $training\ data$ 取得较高的正确率。并且 $over\ fitting$ 指的是在训练集上表现良好，测试集上表现较差的模型。

举两个例子：
示例1：
模型在测试集上的错误率如下所示：
在这里插入图片描述
这是可能就会说， $56$ 层的神经网络错误率比较高很有可能发生了过拟合；这时候我们回到训练集上，训练集错误率如下：

在这里插入图片描述
可以看到并不是 $56$ 层的模型发生了 $over\ fitting$ ，只是 $56$ 层的神经网络没那么好训练(可能存在梯度消失问题)，训练的效果没有 $20$ 层的那么好。

有人也许会认为 $56$ 层的神经网的问题是 $u n d er f i tt in g$ ，但是 $u n d er f i tt in g$ 指的是模型不够复杂，参数不够多，不足与描述问题；但这个 $56$ 层的复杂程度是高于 $20$ 层的，所以问题可能是出现在训练的方式上或者模型结构的选择上。

Vanishing Gradient Problem

$deep\ learning$ 不好训练的原因之一是存在梯度消失。即靠近输出层的梯度很小，参数更新的很慢；而靠近输出层的梯度较大，学习的非常快。就会出现靠近输出层的参数还是随机的状态，输出层就已经根据这些随机的参数找到了局部最优解，然后输出层的参数就收敛了。

在这里插入图片描述

为什么会发生梯度消失呢？假设我们在神经网络中使用的是 $s i g m o i d$ 激活函数；现在对输入层的权重 $w$ 加上一个较大的 $\Delta w$ ， $s i g m o i d$ 会将无穷大的数都映射到0-1内，所以在经过第一层 $l a yer$ 后， $\Delta w$ 被衰减了；即层数越多 $\Delta w$ 对 $o u tp u t$ 的影响就越小，所以靠近 $in p u t$ 的参数对损失函数的值的影响是很小的，于是靠近 $in p u t$ 的参数对于损失函数的梯度 $\frac{∂l}{∂w}$ 远小于靠近输出的的梯度。如下图所示：

在这里插入图片描述

ReLU

现在常用的激活函数是ReLU，函数图像如下：
在这里插入图片描述

使用 $R e LU$ 有以下4点原因：

$R e LU$ 函数运算很快
$R e LU$ 函数结合了生物上的观察
无穷多不同 $bia s$ 的 $s i g m o i d$ 函数叠加的结果就是 $R e LU$ 函数
可以解决 $Vanishing\ Gradient$ 问题

所以梯度消失可以通过更换激活函数解决

为什么 $R e LU$ 能够解决梯度消失问题呢？

根据 $R e LU$ 图像可知，当 $in p u t$ 大于0， $R e LU$ 就是线性的；当小于0， $R e LU$ 就恒等于 $0$ 。如下图，神经网络中的节点要么是线性函数要么是 $0$ .
在这里插入图片描述

$o u tp u t$ 是 $0$ 的神经节点对输出 $y$ 没有影响，所以从图中去掉，如下图：

在这里插入图片描述
变成了一个更加“精瘦”的线性神经网络，不会像 $s i g m o i d$ 那样 $\Delta w$ 的影响逐层递减了。

这里大家可能会产生疑问，使用 $\ learning$ 就是为了找到一个复杂的非线性函数，使用了 $R e LU$ 难度不是消弱了神经网络的学习能力吗？

其实这个 $R e LU$ 神经还是非线性的，当 $in p u t$ 不同时，“精瘦”的线性神经网络不是一层不变的；而是随着输入的不同在使用不同的“精瘦”的线性神经网络，有点分段函数的感觉。

Leaky ReLU and Parametric ReLU：

$R e LU$ 函数当输入小于 $0$ 时，此时梯度值也为0，则不会去更新参数了；为了让输入小于0时，也有比较小的梯度值，所以当输入小于0时， $a=0.001\cdot z$ ；如下图：
在这里插入图片描述

这个激活函数就叫做 $Leaky\ ReLU$ 。

为什么是 $0.001\cdot z$ 呢？据此问题提出了 $Parametric\ ReLU$ ，如下图：

在这里插入图片描述

$α$ 也是需要学习的参数之一。

Maxout：

$M a x o u t$ 的想法是 $Learnable\ activation\ function$ (激活函数也是可学习的)。

$M a x o u t$ 会将几个输入划分为一个 $g ro u p$ ，然后取最大值输出，如下图：

在这里插入图片描述

划分的 $g ro u p$ 和 $M a x$ 操作就可以看作原来的神经节点了。有点类似 $CNN$ 的 $Max\ Pooling$

为什么 $M a x o u t$ 能够学习到不同的激活函数呢？

先看原来的ReLU神经节点，蓝色曲线是 $z$ 的图像，经过 $R e LU$ 后得到绿色曲线。

在这里插入图片描述

接下来看 $M a x o u t$ ，假设连接 $z_2$ 的权重 $w$ 都是 $0$ ，如下图；分别画出 $z_1$ (蓝色)和 $z_2$ (红色)线条，再经过 $M a x$ 操作后，得到的就是绿色线条了，这正是 $R e LU$ 函数的曲线。

在这里插入图片描述

对于上图，将连接 $z_2$ 的权重 $w$ 设置为非 $0$ 的 $w^{'}$ 和 $b^{'}$ ，得到的激活函数就会发生改变，如下图：

在这里插入图片描述

所以 $M a x o u t$ 不仅能够学习到 $R e LU$ ，还能够学习不同的激活函数。

$M a x o u t$ 性质：
可以实现任何的分段线性凸激活函数，有多少段取决于把多少个 $element\ z$ 分为一个组，如下图：
在这里插入图片描述

How to train Maxout：

下图是 $M a x o u t$ 的结构图，假设红框部分是比较大的值，即 $M a x$ 操作后输出的是红框的部分的数值。

在这里插入图片描述
所以其余节点对输出并没有影响，从图中去掉，得到下图中的比较细长的 $\ network$ ；训练 $M a x o u t$ 其实就是训练这个比较细长的 $\ network$ 。

在这里插入图片描述

所以在没有开始训练模型是，含有 $ma x$ 操作的 $n e tw or k$ 是不能够进行微分的。当输入了一个具体的样本，此时 $n e tw or k$ 就能够确定具体的形状，此时的 $M a x$ 操作就转换成了某个具体的函数，是能够进行微分的。

注意，对于不同的输入样本，会得到不同的细长的 $\ network$ ；所以每次训练的 $n e tw or k$ 都会是不同的，这能够确保每一个权重 $w$ 都会被训练。

Adaptive Learning Rate：

当数据在训练集上并没有得到很好的效果，可以尝试使用优化算法。

Adagrad
$A d a g r a d$ 公式：
$w^{t+1}:=w^t-\frac{\eta}{\sqrt{\sum ^t_{i=0}(g^i)^2}}g^t$
$t$ ：第 $t$ 次梯度下降
$g^i$ ：第 $i$ 次梯度下降的梯度值
.
思想：
当之前的下降梯度都很大时，当前很可能已经在局部最优解附近了，所以需要缩小下降梯度；反之增大下降梯度。
RMSProp
吴恩达课程-RMSProp笔记
$RMSP ro p$ 公式：
$w^{t+1}=w^t-\frac{\eta}{σ^t}g^t \tag1$
$σ^t=\sqrt{α(σ^{t-1})^2+(1-α)(g^t)^2}\tag2$
.
思想：
$A d a g r a d$ 考虑的是过去的所有梯度，对所有的梯度侧重都是一样的。
$RMSP ro p$ 也考虑了过去的所有梯度，但是有侧重的考虑；它乘上了一个小于0的 $α$ ，表示更新当前的 $w$ 着重考前最近的梯度，较远的梯度对当前 $w$ 的梯度更新影响不大。
Momentum：
吴恩达笔记，具体细节看这，本小节只做简单补充
损失函数如下图所示，梯度下降就像是小球的滚落，朝着低谷( $L oss$ 较小的地方)落去。小球很容易落到一些局部最优处，但是由于原本存在的动量，小球会继续滚动落入到一个地势更低的山谷。

将小球下落和动量的想法带入到学习率中去就是动量梯度下降算法了。
Adam：
$RMSP ro p$ 和 $M o m e n t u m$ 的结合。吴恩达笔记

Early Stopping：

如果在训练集上 $p er f or m er$ 比较好，然而在测试集上的 $p er f or m er$ ，可以考虑 $Early\ Stopping$ 。

具体的意思是可以提前停止训练，使模型处在一个训练集和测试集上 $L oss$ 都比较低的状态，而不是一定要在测试集上 $L oss$ 最低。

在这里插入图片描述

$Early\ Stopping$ 更多的会用在 $Training\ set$ 和 $Validation\ set$ 上；因为 $Testing\ set$ 可能是一个未知的数据集，实际使用时才会获取的数据集。

【平时说的 $Testing\ set$ 一般说的是已知的用于测试数据集】

Regularization：

吴恩达笔记

如果在训练集上 $p er f or m er$ 比较好，然而在测试集上的 $p er f or m er$ ，也可以考虑 $R e gu l a r i z a t i o n$ 。

正则化就是在损失函数后面加上一个惩罚项，经可能的在使 $L oss$ 较低的同时，参数 $w$ 是一个接近于 $0$ 的参数。

$L2\ regularization$ :
损失函数表达式：
$L'(θ)=L(θ)+λ\frac{1}{2}||θ||_2$
梯度表示：
$\frac{∂L'}{∂w}=\frac{∂L}{∂w}+λw$
符号解释：
$θ={w_1,w_2,\cdots}$
$||θ||_2=(w_1)^2+(w_2)^2+\cdots$ 第二范式
$L (θ)$ :未加正则项的损失函数
.
参数更新过程如下图：

可以看出 $L2\ regularization$ 每次更新前都会缩小当前的参数再进行梯度下降
$L1\ regularization$ ：
损失函数表达式：
$L'(θ)=L(θ)+λ\frac{1}{2}||θ||_1$
梯度表示：
$\frac{∂L'}{∂w}=\frac{∂L}{∂w}+λsgn(w)$
符号解释：
$||θ||_1=|w_1|+|w_2|+\cdots$ 第一范式
.
$s g n (w)$ ： $θ||_1$ 包含绝对值，其实就是一个 $V$ 字形的图像；所以当 $w$ 大于0，微分值为1；小于0时为-1；等于0时就随便赋值，比如说0。 $s g n (w)$ 就是当 $w$ 大于0时就是一个正数，小于0时是一个负数，等于0时就是0。
.
参数更新过程如下：

可以看出 $L1\ regularization$ 每次更新都会减去一个固定数值
$L1\ regularization$ VS L2 regularization：
.
$L2\ regularization$ 每次更新前都会缩小当前的参数再进行梯度下降；
$L1\ regularization$ 每次更新都会减去一个固定数值。
.
当参数 $w$ 的绝对值比较大的时候， $L 2$ 会让 $w$ 下降得更快，而 $L 1$ 每次更新只让 $w$ 减去一个固定的值，训练完以后可能还会有很多比较大的参数；当参数 $w$ 的绝对值比较小的时候， $L 2$ 的下降速度就会变得很慢，训练出来的参数平均都是比较小的，而 $L 1$ 每次下降一个固定的值，训练出来的参数有很多是接近0的值，也会有很大的值。
.
之前 $CNN$ 手写数字可视化的例子中使用的正则项就很适合使用 $L 1$ ，因为我们想让大部分的值都很小(空白处多一些)，小部分值大一些(笔迹部分)。

其实 $Early\ Stopping$ 和 $re gu l a r i z a t i o n$ 做的事情是类似的。我么在训练 $Deep\ Learning$ 时会将参数 $θ$ 设置成接近于0的值，而 $u p d a t e$ 的过程就是让 $θ$ 远离0的过程；而 $Early\ Stopping$ 就是提前终止 $u p d a t e$ ，就是停止 $θ$ 远离0的这一过程。

Dropout：

吴恩达笔记

如果在训练集上 $p er f or m er$ 比较好，然而在测试集上的 $p er f or m er$ ，也可以考虑 $Dro p o u t$ 。

Dropout就是使一些节点完全失效，每个节点失效的概率是 $p$ (需要人为设置)。如下图，打叉的部分就是被失效的节点。

在这里插入图片描述

这些失效的节点对最后的输出并没有影响，所以得到了一个细长的神经网络，如下图：

在这里插入图片描述
对于每个mini-batch data，都会进行 $Dro p o u t$ ，即每个mini-batch都会得到不同的细长的神经网络。

还有一些细节：
我们只有在训练时才会执行 $Dro p o u t$ ，测试时会使用全部的神经节点。当 $Dropout\ rate$ 是 $p$ 时，在测试时会将权重 $w$ 都乘上 $(1 - p)$ 。

为什么要成上 $(1 - p)$ 呢？

举一个直观的例子，假设 $p = 0.5$ ，如下图，一半的神经节点在训练时失效了，但是在测试时会使用全部的神经节点；所以最后得到的结果可能是训练时的 $2$ 倍，所以需要乘上 $0.5$ 来弥补失效节点带来的影响。

在这里插入图片描述

Dropout is a kind of ensemble：

为什么Dropout 会有作用呢？
有一种解释是：Dropout is a kind of ensemble。

ensemble的思想：
有一个很大的训练姐，每次训练都从其中随机采样一部分数据，如下图：
在这里插入图片描述

对于这些数据可以搭建不痛的模型去拟合，所以最后会得到很多不一样的预测值 $y$ ，如下图；然后把这些结果平均起来当做最后的输出通常会比较准确。

在这里插入图片描述

对于 $Dro p o u t$ 也是类似的，对于不同的minibatch都对应着不同的 $n e tw or k$ ，如下图；如果有 $M$ 个神经节点，就会有 $2^M$ 种不同的 $\ structure.$

在这里插入图片描述

注意，虽然一个 $n e tw or k$ 只能用一个minibatch进行训练，但权重 $w$ 可以在不同的 $n e tw or k$ 里被不同的minibatch训练，所以同一个权重 $w$ 实际上是被所有没有丢掉它的 $n e tw or k$ 一起共享的，是所有包含这个权重 $w$ 的 $n e tw or k$ 共同训练的成果。