机器学习：神经网络的 over fitting

最新推荐文章于 2022-10-20 17:30:07 发布

Matrix_11

最新推荐文章于 2022-10-20 17:30:07 发布

阅读量779

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/matrix_space/article/details/84557048

版权

机器学习专栏收录该内容

113 篇文章 145 订阅

订阅专栏

我们在训练模型的时候，经常会遇到 under fitting 与 over fitting 的概念，现在的机器学习，基本是数据驱动型的。模型最终是要拟合数据的分布，一般如果模型的 capacity 不够，就容易造成 under fitting，这个通过增加模型的 capacity 都能得到解决，现在训练模型，最担心的往往是另外一种问题，就是所说的 over fitting。

模型如果在训练集上表现很好，而在测试集上表现糟糕，那模型应该是存在over fitting 的问题

over fitting 是训练神经网络经常会碰到的一个问题，不仅仅是 classification，只要涉及拟合分布，那么都有可能出现 over fitting，比如分割，检测，当模型太过复杂，而数据的总量和多样性又不足的时候，加上训练的时间很长，就很容易出现 over fitting。

over fitting 的原因，一般都是因为模型过于拟合训练数据的分布，因为神经网络，尤其是深度神经网络，是一个非常复杂的非线性映射函数，几乎可以拟合各种各样的数据分布，我们常常说训练数据的分布与测试数据的分布比较类似，这种 “类似”也是体现在整体的趋势上，而不是非常细微的地方。如果模型太执着于细节，其 variance 就会很大，模型变得非常敏感，而失去了对整体趋势的把握，从而导致模型不再具备泛化能力。

比较常见的几种减少over fitting 的方式：

增加数据

数据的多样性，也是提升模型泛化能力的一种方法，以图像识别为例，一般都会做一些裁剪，反转，平移等数据增广，以增加数据的多样性，更直接的方式就是获取更多的原始数据，不过，有标签的数据越来越难获取，所以就会有下面几种抑制 over fitting 的方式。

加入正则项

这个就是我们常说的 weight decay，我们一般的 loss 函数是交叉熵：

$\sum y \text{log} p$

weight decay 就是在后面加入正则项：
$\sum y \text{log} p + \lambda ||w||_{l}$

$w||_{l}$ 表示 $w$ 的 $l$ 范数，一般是 1 或者 2，通过 weight decay 的方式，可以一定程度抑制 over fitting。

Drop-out

这个最早是 Hinton 等人提出来的一种训练策略，就是在训练模型的时候，随机的让一些神经元置 0，这种让某些神经元不工作的方法，就类似在减小了网络的 capacity，而且由于神经元的置 0 是随机的，这就类似有很多个小的网络在 ensemble 一样。训练了很多个不同的小网络，测试的时候，神经元全部都打开，就类似把很多个小网络联合在一起预测。 Drop out 最初是用在全连接 FC 层上，现在，也有用在卷积层上，drop out 是比较有效的一种抑制网络 over fitting 的方法。

及时终止训练

网络模型理论上，是可以把训练数据拟合得非常好的，只要你给它足够的训练时间，但是一般来说，如果对训练数据拟合到一定程度，再训练下去，可能就没有什么作用了，甚至会出现 over fitting，所以停止训练的时间也是比较重要的。不过，我们一般很难把握这个时间点，我们不知道什么时候停止训练是最佳的，所以会在训练一段时间，利用 validation set 进行测试，以随时监测模型的泛化能力。当模型在 validation set 上的性能基本平稳了，那说明模型训练可以终止了。