笔记：ML-LHY-9: Tips for Training DNN

最新推荐文章于 2021-02-25 22:34:25 发布

snoopy_21

最新推荐文章于 2021-02-25 22:34:25 发布

阅读量280

点赞数

分类专栏：机器学习笔记李宏毅ML课程笔记

本文链接：https://blog.csdn.net/qq_29598161/article/details/107623249

版权

笔记同时被 3 个专栏收录

68 篇文章 7 订阅

订阅专栏

机器学习

32 篇文章 0 订阅

订阅专栏

李宏毅ML课程笔记

31 篇文章 4 订阅

订阅专栏

这节课从解决2个方面问题：

在training data上表现不好，没有train好，解决方面有：激活函数(主要解决梯度消失)、学习率(主要解决损失变化很大情况)
激活函数：sigmoid激活函数会导致梯度消失问题，即在靠近输入层的参数会有更小的梯度，所以更新的更慢。相反，而靠近输出层的参数会有更大的参数，更新的更快。使用ReLU可以一定程度上解决梯度消失问题，同时由于左右两边不一样，多个组合就能进行非线性表示。还有更强大的Maxout。
学习率：在ML-LHY-3 Gradient Descent 中很详细介绍了各种学习率算法：Adagrad、SGDM、RMSProp、Adam
在testing data上表现不好，overfitting，解决方面有：Dropout(随机丢弃神经元)、正则项、early stopping
Dropout：设置重重障碍(Dropout)，所以用了Dropout的训练结果肯定比没用的要差。但是，如果用了Dropout也得到还不错的结果，那么在测试的时候应该会比训练时好很多。
解释ensemble：简单来说，Ensemble就是组合多种不同的模型进行学习的方式。在ML-LHY-22: Ensemble更详细介绍
pdf 视频

在这里插入图片描述

什么情况是overfitting？

在这里插入图片描述
在training data上得到好的结果，而在testing data上得到不好的结果，才是overfitting。解决overfitting时，要确保training data上没有变坏。

都是overfitting？

在这里插入图片描述
上图56层网络是在testing data 和 training data表现的都不好，这个不是overfitting，是在训练时就没训练好。所以，并不是网络约深越好，达到一定深度就会达到瓶颈，这是由于（还是引用知乎大神的介绍比较明白）:

按理说，当我们堆叠一个模型时，理所当然的会认为效果会越堆越好。因为，假设一个比较浅的网络已经可以达到不错的效果，那么即使之后堆上去的网络什么也不做，模型的效果也不会变差。
然而事实上，这却是问题所在。“什么都不做”恰好是当前神经网络最难做到的东西之一。
也许赋予神经网络无限可能性的“非线性”让神经网络模型走得太远，却也让它忘记了为什么出发（想想还挺哲学）。这也使得特征随着层层前向传播得到完整保留（什么也不做）的可能性都微乎其微。用学术点的话说，这种神经网络丢失的“不忘初心”/“什么都不做”的品质叫做恒等映射（identity mapping）。因此，可以认为Residual Learning的初衷，其实是让模型的内部结构至少有恒等映射的能力。以保证在堆叠网络的过程中，网络至少不会因为继续堆叠而产生退化！
作者：薰风初入弦
链接：https://www.zhihu.com/question/64494691/answer/786270699
来源：知乎
著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。
————————————————
版权声明：本文为CSDN博主「zzig」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_29598161/article/details/106604135

所以凯明大佬就提出了ResNet，具体看ResNet笔记，通过引入残差学习(residual learning)来解决退化问题（残差的思想都是去掉相同的主体部分，从而突出微小的变化）。

总结1

所以在training data上出现问题和在testing data上出现问题解决方法是不一样的，比如dropout，这个方法是解决在testing data效果不好时使用，也就是为了解决overfitting，如果在training data上效果不好也使用dropout，那只会越来越糟糕。

下面开始说在Training Data上结果不好怎么做

在这里插入图片描述

New activation function

梯度消失问题

在这里插入图片描述
如上图，简单的手写数字识别，当层数很多时，准确度下降。而我们可以看到这不是overfitting，而是在training data上就train坏了！这种就是梯度消失导致的。

为什么会有梯度消失问题

在这里插入图片描述

在靠近输入层的参数会有更小的梯度，所以更新的更慢。相反，而靠近输出层的参数会有更大的参数，更新的更快。那么，当靠近输出层的参数已经更新到一个极值的地方，而此时靠近输出层的还是一个初始的随机参数。这就导致后面层的参数是基于前面随机参数来得到的，所以不可靠。
在这里插入图片描述
那么假设在靠近输出层的地方，给参数 $+\Delta w$ ，而经过sigmoid函数会发生什么呢， $+\Delta w$ 会变小，这样累计下去前面的 $+\Delta w$ 就会变得很小，也就是梯度消失。为了解决梯度消失问题，最先提出使用受限玻尔兹曼机(RBM)方法，先训练1层的网络，得到第1层参数，训练2层网络，得到第2层参数…这样确保最训练所以层网络时，虽然改变第1层比较小，但是在pre train时已经得到了第一层的参数了。后来又发现可以直接改激活函数，也就下面要说的激活函数的选择

激活函数的选择

Rectified Linear Unit (ReLU)

在这里插入图片描述
ReLu如上图，当输入>0时，输出就是输入，也就不存在衰减问题，但是输入<0时，总是等于0还不太好，又提出<0保留一些的𝐿𝑒𝑎𝑘𝑦 𝑅𝑒𝐿𝑈和可以学习的𝑃𝑎𝑟𝑎𝑚𝑒𝑡𝑟𝑖𝑐 𝑅𝑒𝐿𝑈：
在这里插入图片描述
使用ReLU就会导致网络变得更廋

怎么训练？
训练是这样的：我们知道ReLU在0的地方不可微，但是实际操作时很少输入刚好等于0，>0梯度就是1，<0就是 $\alpha$ 。
如何保证非线性？
如果改变前后 $z$ 属于不同的函数（ReLU是分段函数），那么region就发生改变，此时来自不同的函数组合着改变参数，那么就是非线性的。否则就是线性，实际操作总会发生前后属于不用region，所以ReLU也可以保证非线性。

Maxout

可以联系maxpooling
在这里插入图片描述
Maxout：假设每2个输出分为1组，然后选组里最大的
Maxout可以模拟ReLU：

当然还可以模拟其他：
还可以模拟3段函数, 4段、5段…取决于分组元素数量

在这里插入图片描述

还是2个问题：怎么训练？如何保证非线性？
在给定输入后，根据max，就确定了结构，所以我们可以看ReLU只能回答这2个问题，这里也是一样。注意：每次输入输出结构不一样，那么根据max产生的分段函数也就不一样，而数据量很大时，每个参数都会更新到

Adaptive Learning Rate

这些在笔记：ML-LHY-3 Gradient Descent已经详细记录了，这里简单回顾一下Adagard、RMSProp、SGDM、Adam

Adagard

$w^{t+1} \leftarrow w^{t}-\frac{\eta}{\sqrt{\sum_{i=0}^{t}\left(g^{i}\right)^{2}}} g^{t}$
学习率考虑了之前的情况，有记忆性，会符合整体趋势

RMSProp

$\theta_{t}=\theta_{t-1}-\frac{\eta}{\sqrt{v_{t}}} g_{t-1}$
$v_{1}=g_{0}^{2}$
$v_{t}=\alpha v_{t-1}+(1-\alpha)\left(g_{t-1}\right)^{2}$
Adagrad会累加之前的多有梯度，如果一开始的梯度很大，就会导致学习率很小，导致卡住。而RMSProp在增加当前梯度时乘了 $1-\alpha$ ，对之前累加结果乘了 $\alpha$ ，所以次数越多，前面的梯度会多次乘 $\alpha$ ，所以 $v$ 不会无限增加。

SGDM

定义Movement 为 $v$ ，包括之前计算的所有梯度，所以在梯度为0或接近0的地方，不会停下来，因为根据整体趋势，会继续走。而在最右边的点，虽然当时那个点的梯度是往极值点，但是考虑整体趋势，还是会继续往右走。

$v^{0}=0$
$v^{i}=\lambda v^{i-1}-\eta \nabla L\left(\theta^{i-1}\right)$
$\theta^{i}=\theta^{i-1}+v^{i}$
在这里插入图片描述
李宏毅老师举了一个例子：小球下坡的惯性

Adam(SGDM+RMSProp)

公式：
$\theta_{t}=\theta_{t-1}-\frac{\eta}{\sqrt{\hat{v}_{t}}+\varepsilon} \hat{m}_{t}$
其中 $m$ 提现SGDM思想， $v$ 提现RMSProp思想。
$m$ 展开：
$\begin{array}{l} \theta_{t}=\theta_{t-1}-m_{t} \\ m_{t}=\beta_{1} m_{t-1}+\left(1-\beta_{1}\right) g_{t-1} \end{array}$
$v$ 展开：
$\begin{array}{l} \theta_{t}=\theta_{t-1}-\frac{\eta}{\sqrt{v_{t}}} g_{t-1} \\ v_{1}=g_{0}^{2} \\ v_{t}=\beta_{2} v_{t-1}+\left(1-\beta_{2}\right)\left(g_{t-1}\right)^{2} \end{array}$
但是发现Adam公式中有 $m$ 和 $v$ 都有hat，其实是为了防止最开始时 $\beta_{1}m$ 和 $\beta_{2}v$ 太小导致不起作用，所以除以 $1-\beta$ 就有 $\frac{\beta_{1}m}{1-\beta_{1}}$ 和 $\frac{\beta_{2}v}{1-\beta_{2}}$ 不至于太小

$\begin{array}{l} \hat{m}_{t}=\frac{m_{t}}{1-\beta_{1}^{t}} \\ \hat{v}_{t}=\frac{v_{t}}{1-\beta_{2}^{t}} \\ \beta_{1}=0.9 \\ \beta_{2}=0.999 \\ \varepsilon=10^{-8} \end{array}$

总结:Adagrad、RMSProp、Adam都是自适应算法

下面开始说在Testing Data上结果不好怎么做

在这里插入图片描述
Early Stopping和 Regularization是很传统的做法，Dropout是具有深度学习特色的做法

Early Stopping

在这里插入图片描述
就是会有这种情况，Training set一直下降，而Testing set反而会在一定阈值后升高。所以就有很自然的思想，想要在升高前就停止。具体做法：就是用Validation set当Testing set用，模拟Testing set在哪个地方降到最低了。这里需要区分什么是Training set、Validation set、Testing set

Training set 训练数据集合，梯度下降主要在Training set上
Validation set 验证数据集，主要用于辅助，比如这里，或者求一些超参数
Testing set 测试数据集，用于模拟真实的数据来测试性能，不要根据Testing set的结果来修改模型，这会导致模型拟合Testing set而产生偏差，更详细之前课程已经分析过了ML-LHY-2 Bias v.s. Variance

Regularization

$\mathrm{L}^{\prime}(\theta)={L}(\theta)+\lambda \frac{1}{2}\|\theta\|_{2}$
$\lambda \frac{1}{2}\|\theta\|_{2}$ 就是正则项，
$\theta=\left\{w_{1}, w_{2}, \ldots\right\}$ ，
L2范数： $\|\theta\|_{2}=\left(w_{1}\right)^{2}+\left(w_{2}\right)^{2}+\ldots$

加正则只会让函数拟合的更平滑，并不会考虑偏差

求梯度：
$\frac{\partial \mathrm{L}^{\prime}}{\partial w}=\frac{\partial \mathrm{L}}{\partial w}+\lambda w$
更新：
$w^{t+1} \rightarrow w^{t}-\eta \frac{\partial \mathrm{L}^{\prime}}{\partial w}=w^{t}-\eta\left(\frac{\partial \mathrm{L}}{\partial w}+\lambda w^{t}\right)\\ =(1-\eta \lambda) w^{t}-\eta \frac{\partial \mathrm{L}}{\partial w}$
$(1-\eta \lambda)$ 是一个接近1的数，那么每次更新参数都乘一个小于1的数，那么会使得参数越来越靠近0，这样会导参数都变为0吗？其实不会，因为还有后面一项 $\eta\frac{\partial \mathrm{L}}{\partial w}$ ，会权衡。这种做法称为：Weight Decay

为什么Weight Decay可以减轻过拟合？

过拟合的时候，拟合函数的系数往往非常大，这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。而正则化是通过约束参数的范数使其不要太大，所以可以在一定程度上减少过拟合情况。

正则项除了2次的还有1次的L1正则项: $\|\theta\|_{1}=\left|w_{1}\right|+\left|w_{2}\right|+\ldots$

$\mathrm{L}^{\prime}(\theta)=L(\theta)+\lambda \frac{1}{2}\|\theta\|_{1} \quad \frac{\partial \mathrm{L}^{\prime}}{\partial w}=\frac{\partial \mathrm{L}}{\partial w}+\lambda \operatorname{sgn}(w)$
sgn就是当sign函数，>0为1，<0为-1
更新参数：
$\begin{array}{l} w^{t+1} \rightarrow w^{t}-\eta \frac{\partial \mathrm{L}^{\prime}}{\partial w}=w^{t}-\eta\left(\frac{\partial \mathrm{L}}{\partial w}+\lambda \operatorname{sgn}\left(w^{t}\right)\right) \\ =w^{t}-\eta \frac{\partial \mathrm{L}}{\partial w}-\eta \lambda \operatorname{sgn}\left(w^{t}\right) \\ =(1-\eta \lambda) w^{t}-\eta \frac{\partial \mathrm{L}}{\partial w} \end{array}$
那么每次更新参数都减或加一个小于1的数，也是让参数越来越靠近0，但是没有L2更新那么快。

总结一下：用L2可能导致很多参数很小、用L2就可能还保留很多非常大的参数

Dropout

Dropout之前也做过记录，这里更详细说明下。

训练的时候：

在这里插入图片描述
开始更新参数前，先根据丢弃概率为p，确定本次网络结构：

变得更瘦了，然后根据本次网络结构更新参数。就是对于每个min-batch(比如batch= 10，那么min-batch就有10笔example，在这10笔内用同种网络结构)，重新根据丢弃概率p丢弃神经元(For each mini-batch, we resample the dropout neurons)

测试的时候：
用完整的网络：
在这里插入图片描述
需要注意的是：每个参数需要乘以1-p，为什么？

如果在p=0.5，训练时的参数少，值大，而测试时参数多，值理应更小，所以就有上面近似关系。

直觉解释

Dropout的形象描述1：
在这里插入图片描述
意思就是在训练的时候，设置重重障碍(Dropout)，所以用了Dropout的训练结果肯定比没用的要差。但是，如果用了Dropout也得到还不错的结果，那么在测试的时候应该会比训练时好很多
Dropout的形象描述2：在这里插入图片描述
在完成一个工作的时候，会想到其他人可能做不好(Dropout)，所以自己任务需要做的更好，弥补别人，才能达到总目标。然后每个人都这么认为，都做的更好。事实上，在测试时，每没有人做不好(Dropout)，但是每个人有做的更好了。