深度学习防止过拟合的方法

最新推荐文章于 2024-08-11 13:47:59 发布

kupeThinkPoem

最新推荐文章于 2024-08-11 13:47:59 发布

阅读量3.2k

点赞数 3

分类专栏：深度学习文章标签：深度学习神经网络机器学习

本文链接：https://blog.csdn.net/kupepoem/article/details/120206456

版权

深度学习专栏收录该内容

6 篇文章 2 订阅

订阅专栏

4、提前停止（early stopping）

一、概述

我们都知道，在进行数据挖掘或者机器学习模型建立的时候，因为在统计学习中，假设数据满足独立同分布（i.i.d，independently and identically distributed），即当前已产生的数据可以对未来的数据进行推测与模拟，因此都是使用历史数据建立模型，即使用已经产生的数据去训练，然后使用该模型去拟合未来的数据。但是一般独立同分布的假设往往不成立，即数据的分布可能会发生变化（distribution drift），并且可能当前的数据量过少，不足以对整个数据集进行分布估计，因此往往需要防止模型过拟合，提高模型泛化能力。而为了达到该目的的最常见方法便是：正则化，即在对模型的目标函数（objective function）或代价函数（cost function）加上正则项。
在对模型进行训练时，有可能遇到训练数据不够，即训练数据无法对整个数据的分布进行估计的时候，或者在对模型进行过度训练（overtraining）时，常常会导致模型的过拟合（overfitting）。如下图所示：

通过上图可以看出，随着模型训练的进行，模型的复杂度会增加，此时模型在训练数据集上的训练误差会逐渐减小，但是在模型的复杂度达到一定程度时，模型在验证集上的误差反而随着模型的复杂度增加而增大。此时便发生了过拟合，即模型的复杂度升高，但是该模型在除训练集之外的数据集上却不work

二、解决方法

为了防止过拟合，我们需要用到一些方法，如：early stopping、数据集扩增（Data augmentation）、正则化（Regularization）、Dropout等。

1、L1和L2正则化

都是针对模型中参数过大的问题引入惩罚项，依据是奥克姆剃刀原理。在深度学习中，L1会趋向于产生少量的特征，而其他的特征都是0增加网络稀疏性；而L2会选择更多的特征，这些特征都会接近于0，防止过拟合。神经网络需要每一层的神经元尽可能的提取出有意义的特征，而这些特征不能是无源之水，因此L2正则用的多一些。

2、dropout

深度学习中最常用的正则化技术是dropout，随机的丢掉一些神经元。Dropout的核心思想是训练时以一定的概率p（通常是50%）关闭隐藏层神经元的输出，也就是输出为0。这种策略可以从不同角度理解：首先这使得每次训练的模型并不是相同的结构，可以认为是原网络的子集，最终的输出是这些不同模型不同结构共同作用的结果（类似于集成学习中Bagging的策略）；另外Dropout方法可以让神经元之间减小依赖性，因为随机的关闭可以使得神经元之间不会总是同时作用。
测试时，全部神经元都使用，但是他们的输出乘上了系数（1-p）。

3、数据增强

比如将原始图像翻转平移拉伸，从而是模型的训练数据集增大。数据增强已经是深度学习的必需步骤了，其对于模型的泛化能力增加普遍有效，但是不必做的太过，将原始数据量通过数据增加增加到2倍可以，但增加十倍百倍就只是增加了训练所需的时间，不会继续增加模型的泛化能力了。

4、提前停止（early stopping）

就是让模型在训练的差不多的时候就停下来，比如继续训练带来提升不大或者连续几轮训练都不带来提升的时候，这样可以避免只是改进了训练集的指标但降低了测试集的指标。

5、批量正则化（BN）

就是将卷积神经网络的每层之间加上将神经元的权重调成标准正态分布的正则化层，这样可以让每一层的训练都从相似的起点出发，而对权重进行拉伸，等价于对特征进行拉伸，在输入层等价于数据增强。注意正则化层是不需要训练。

6、简化网络

过于复杂的模型会带来过拟合问题。对于模型的设计，目前公认的一个深度学习规律"deeper is better"。国内外各种大牛通过实验和竞赛发现，对于CNN来说，层数越多效果越好，但是也更容易产生过拟合，并且计算所耗费的时间也越长。根据奥卡姆剃刀法则：在同样能够解释已知观测现象的假设中，我们应该挑选“最简单”的那一个。对于模型的设计而言，我们应该选择简单、合适的模型解决复杂的问题。

7、降低学习率

8、降低特征数量

对于一些特征工程而言，可以降低特征的数量——删除冗余特征，人工选择保留哪些特征。这种方法也可以解决过拟合问题。

9、权值共享

　　权值共享最常见的就是在卷积神经网络中，权值共享的目的旨在减小模型中的参数，同时还能较少计算量。在循环神经网络中也用到了权值共享。

10、剪枝处理

　　剪枝是决策树中一种控制过拟合的方法，我们知道决策树是一种非常容易陷入过拟合的算法，剪枝处理主要有预剪枝和后剪枝这两种，常见的是两种方法一起使用。预剪枝通过在训练过程中控制树深、叶子节点数、叶子节点中样本的个数等来控制树的复杂度。后剪枝则是在训练好树模型之后，采用交叉验证的方式进行剪枝以找到最优的树模型。