李宏毅深度学习笔记（三）——调整模型的技巧

最新推荐文章于 2023-10-28 21:20:33 发布

好想学会深度学习啊

最新推荐文章于 2023-10-28 21:20:33 发布

阅读量1.4k

点赞数

文章标签：神经网络机器学习深度学习过拟合

本文链接：https://blog.csdn.net/qq_51026159/article/details/119115600

版权

在训练神经网络的时候，如果没有得到好的结果，我们就需要使用一些特殊的技巧。下面分别讨论在两种不同的情况下，调整模型的方法。

1.训练集上得到的误差很大

如果模型在训练集上得到的误差就已经很大，说明可能是你没有选择合适的函数集或者是漏掉了最优解，针对这两种情况，可以选择两种改进方法。

（1）修改激活函数（activation function）

在之前两篇文章中使用的激活函数是sigmoid函数，但是sigmoid函数的问题在于它对于输入的变化是不敏感的，也就是说，输入产生的变化对输出的影响是很小的。

于是，每经过一次sigmoid函数，输入的变化就会衰减一次，在经过很多层Hidden Layer之后，输入对于输出的结果就几乎没有什么影响了。这会导致我们的训练误差偏大。

选用其他的激活函数可以解决这个问题。

ReLU：在z<0时，函数值为0；在z>0时,函数值等于输入。这样z<0的部分对于整个神经网络没有影响，z>0的部分，函数是线性的， $\Delta a=\Delta z$ ，解决了衰减的问题。

Maxout：把原本要作为激活函数的输入的值进行分组（分组的方式和数量人为指定），取每组的最大值作为输出。

这样的结构代表了激活函数的形式是可学习的。它能包含许多函数形式在内，包括ReLU。下图展示了Maxout如何实现与ReLU相同的效果。

当然，Maxout也可以实现更多的函数形式。这些函数都是分段的，并且每一段都是线性的。

但是有一个问题，这样的激活函数是不能微分的，那么如何使用梯度下降的方法训练这样的神经网络呢？答案是如果每次只使用分段函数的一段就可以避免这个问题。我们注意到，在取max之后，只有一个神经元的输入发挥了作用。这意味着，对于一组固定的输入而言，删去那些没有被用到的神经元对整个神经网络的学习是没有影响的，激活函数等同于一个线性的函数。所以在训练的时候只需要考虑这些发挥作用的神经元的参数即可。

如下图所示，在训练过程中，针对输入x1和x2，第一层只有 $z_{1}^{1}$ 和 $z_{4}^{1}$ 发挥了作用，此时相当于删除了神经元 $z_{2}^{1}$ 和 $z_{3}^{1}$ ，激活函数是 $\sigma(z)=z$ 。这样我们就能像处理一般的神经网络一样，使用Backpropagation训练参数。