深度学习中解决过拟合的方法

最新推荐文章于 2024-08-11 13:47:59 发布

Jadelyw

最新推荐文章于 2024-08-11 13:47:59 发布

阅读量5.5k

点赞数 3

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/jadelyw/article/details/80450612

版权

Deep Learning 专栏收录该内容

11 篇文章 0 订阅

订阅专栏

1. 正则化(regularization)

正则化是指修改学习算法，使其降低泛化误差而非训练误差。

1) L2正则化，也称权重衰减(weight decay)，正则项为

加入正则化后，总的目标函数为：

求其偏导:

梯度下降更新权重:

所以，加入权重衰减后会引起学习规则的修改，即在执行梯度更新之前先收缩权重向量。

过拟合，就是拟合函数需要考虑每一个点，最终形成的拟合函数波动过大，在某些小区间内，函数值的变化很剧烈，意味着函数的导数值的绝对值很大，所以相对来书权重系数很大。而L2正则化通过约束参数使其不要太大，所以在一定程度上缓解过拟合现象。

Pytorch中常用优化算法为Adam，其中有权重衰减项，默认值为0， torch.optim.Adam(params, lr=0.001,betas=(0.9, 0.999), eps=1e-08, weight_decay=0, amsgrad=False)

2) L1正则化，正则项为

总的目标函数：

求其偏导：

代表各个元素的正负号

可以看到L1正则化并没有收缩权重向量，当为正时，更新后的变小，当为负时，更新后的变大，因此它的效果就是让w往0靠，使网络中的权重尽可能为0，也就相当于减小了网络复杂度，防止过拟合，L1的主要作用是产生稀疏模型，进行特征选择。

2. 数据增强(data augmention)

数据增强简单的方法有图像水平翻转(Horizontal Flip)、随机抠取(random crops)、旋转(rotating)、平移，添加噪声。

Pytorch中对应的函数分别为：

torchvision.transforms.RandomHorizontalFlip(p=0.5)

torchvision.transforms.RandomCrop(size,padding=0, pad_if_needed=False)

torchvision.transforms.RandomRotation(degrees,resample=False, expand=False, center=None)

3. 随机失活(Dropout)

Dropout是指在网络的训练过程中，随机使某些神经元失活，即随机丢弃某些神经元。因为神经元是随机失活的，所以每个mini-batch对应的网络会较大概率不同。Dropout一般用在全连接层的比较多，也可以用在中间层中的卷积层。一般默认为随机失活概率p=0.5,

为什么Dropout能防止过拟合？分为两种观点：1)类似于集成的方法，即训练多个模型做组合，对于一个N节点的神经网络，加入Dropout后且当p=0.5时，就可以看作是个模型的集合了。2)直观上看dropout是一种组合模型，实际上，是在一个神经网络中进行的，最后只训练出一套模型参数，所以dropout可以解释为，它强迫一个神经元和随机挑选出来的其他神经元共同工作，达到更好的效果，消除减弱神经元节点间的联合适应性，增强泛化能力。

Dropout在网络测试的时候神经元会产生方差偏移。

4. 批规范化(batch normalization)

1) 为什么要归一化？(泛化能力和训练速度)

神经网络学习过程的本质就是学习数据的分布，一旦训练数据和测试数据的分布不同，那么网络的泛化能力就会很低；另一方面一旦每个batch 的训练数据的分布不同，网络就会学习不同的分布，这样就会大大降低网络的训练效率。

2) 为什么要Batch Normalization?

假设网络的输入数据已经归一化，但随着网络参数的调整，网络各层的输出数据即下一层的输入数据则不断变化，那么各层的训练就需要不断改变以适应这种新的数据的分布，从而造成训练困难，难以拟合的问题。

BN算法通过对每一层的输入进行归一化，保证每一层的输入数据是稳定的，从而达到加速训练的目的。

3) BN算法

(1) 对输入数据进行归一化处理，归一化为均值为0，方差为1的分布

(2) 当对每一层的数据进行归一化操作以后，有一个问题就是每层的数据分布是固定的，这样与网络所学习的特征就不一致了，破坏了现有的学习到的特征。所以加入两个可学习变量去还原学习到的特征。

总的来说就是先求该层输入的归一化，然后学习参数去还原数据的输入。

5. Bagging和其他集成方法

Bagging是通过结合几个模型降低泛化误差的技术，主要想法是分别训练几个不同的模型，然后让所有模型表决测试样例的输出，模型平均奏效的原因是不同的模型通常不会在测试集上产生完全相同的误差。

Bagging具体的操作是对原始数据集进行有放回的随机抽样，得到若干个与原数据集相同大小的新数据集的一种技术。在得到k个数据集后，最简单的方法就是用模型某型分别作用于k个数据集，从而得到k个分类器，最后对k个分类器的分类结果进行表决得到最终的结果。

Boosting方法通过改变训练样本的权重，串行训练多个分类器，并将这些分类器进行线性组合来构建强分类器。其具体的方法表现为：boosting构建分类器的过程中，每个新分类器都是根据已训练出的分类器的性能来进行训练的，即将被已有分类器错分的那些数据的权重增大，而被正确分类的数据权重减小。最终在训练得到m个分类器后，依据各分类器的分类性能给予相应的权重，并组合得到最终的分类器。

两者的不同在于：1)训练实例构建：Bagging为随机重抽样，Boosting根据已训练出的分类器性能调整权重；2)子分类器构建: Bagging基于重抽样的数据集构建，相互独立，Boosting根据权重调整后的数据集构建，串行，相互依赖；

3)产生最终分类器：Bagging多数表决的投票法，Boosting权重依赖子分类器性能的加权组合。