过拟合与欠拟合以及防止过拟合的常用方法

最新推荐文章于 2024-01-18 17:52:51 发布

qq_36346625

最新推荐文章于 2024-01-18 17:52:51 发布

阅读量1.5k

点赞数 1

分类专栏： Keras 机器学习深度学习

本文链接：https://blog.csdn.net/qq_36346625/article/details/104789245

版权

深度学习同时被 3 个专栏收录

20 篇文章 2 订阅

订阅专栏

Keras

13 篇文章 0 订阅

订阅专栏

机器学习

6 篇文章 0 订阅

订阅专栏

这篇博客是继IMDB数据集的例子写的，关于数据集准备以及model.compile()，model.fit()可以参见IMDB数据集的例子。

在IMDB数据集的例子中，模型在留出的验证数据上的性能总是在几轮之后达到最高点，然后开始下降也就是，模型很快就在那训练数据上开始过拟合。过拟合存在于所有机器学习问题中，学会如何处理过拟合对掌握机器学习至关重要。
机器学习的根本问题是优化和泛化之间的对立。优化是指调节模型以在训练数据集上取得最佳性能，即机器学习中的学习，而泛化是指训练好的模型在前所未见的数据上的性能好坏。机器学习无法控制泛化，所以只能基于训练数据，调节模型。
训练开始时，训练数据上的损失越小，测试数据上的损失也越小。这时的模型是欠拟合的，仍有改进的空间，网络还没有对训练数据中所有相关模式建模。但在训练数据上迭代一定次数后，泛化不再提高，验证指标先是不变，然后开始变差，即模型开始过拟合。
为了防止模型从训练数据中学到错误或无关紧要的模式，最优解决方法是获取更多的训练数据。模型的训练数据越多，泛化能力自然越好。
如果无法获取更多数据，次优解决方法是调节模型允许存储的信息量，或对模型允许存储的信息加以约束。
如果一个网络只能记住几个模式，那么优化过程会迫使模型集中学习最重要的模式。这种降低过拟合的方法叫做正则化。先介绍几种最常见的正则化方法。

一、减少网络大小
防止模型过拟合最简单的方法就是减小模型大小，即减少模型中可以学习参数的个数，这由层数和每层的单元个数决定。在深度学习中，模型中可学习参数的个数通常被称为模型的容量。直观上来看，参数更多的模型拥有更多的记忆容量，因此能够在训练样本在训练样本和目标之间轻松学会完美的字典式映射，但这种映射没有任何泛化能力。

始终牢记：深度学习模型通常都很擅长拟合训练数据，但真正的挑战在于泛化，而不是拟合。

与此相反，如果网络的记忆资源有限，则无法轻松学会这种映射。
因此，为了让损失最小化，网络必须学会对目标具有很强预测能力的压缩表示，这也正是我们感兴趣的数据表示。同时也需要注意，使用的模型应该具有足够多的参数，以防止欠拟合，即模型应避免记忆资源不足，在容量过大（参数过多）与容量不足（参数不足）之间找到一个折中。没有一种切确切的公式能够确定最佳层数或者每层的最佳大小。因此，必须通过评估一些不同的网络架构（当然是在验证集上评估，而不是在测试集上评估），以便找到最佳的模型大小。要找到合适的模型大小，一般的工作流程是开始时选择相对较少的层和参数，然后逐渐增加层的大小或者增加新层，直到这种增加对验证损失的影响变得很小。
在电影评论分类的网络上测试一下。
原始网络如下：

#原始模型
from keras import models
from keras import layers

model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

通过减少每层的单元个数，使模型的容量更小：

#容量更小的模型
model = models.Sequential()
model.add(layers.Dense(4, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(4, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

下图比较了原始网络与更小网络的验证损失。圆点是更小网络的验证损失值，十字是原始网络的验证损失值。

在这里插入图片描述
从图中可见，更小的网络开始过拟合的时间（validation loss开始上升的时候表示模型开始过拟合）要晚于参考网络，更小的网络11轮（11个epoch）之后开始过拟合，更大的网络4轮（4个epoch）之后就开始过拟合了。而且更小的网络开始过拟合之后，性能变差的速度也更慢。即过拟合后，validation loss曲线上升得也更慢。

再比较一个容量更大（参数更多）的模型：

#容量更大的模型。容量远大于问题所需
model = models.Sequential()
model.add(layers.Dense(512, activation='relu', input_shape=(10000,)))
model.add(layers.Dense(512, activation='relu'))
model.add(layers.Dense(1, activation='sigmoid'))

下图比较了原始网络与更大网络的验证损失。圆点是更大网络的验证损失值，十字是原始网络的验证损失值。
在这里插入图片描述
从图中可以看出：更大的网络只过了2轮（2个epoch）就开始过拟合，过拟合也更严重

下图同时给出这两个网络的训练损失：
在这里插入图片描述
从图中可以看出：更大网络的训练损失很亏就接近于0（第6个epoch）。网络的容量越大（参数越多），它拟合训练数据（得到很小的训练损失）的速度也越快，但也更容易过拟合，导致训练损失和验证损失有很大差异。

二、添加权重正则化
‘’’
奥卡姆剃刀原理：如果一件事情有两种解释，那么最可能正确的解释就是最简单的那个，即假设更少的那个。这个原理也适用于神经网络学到的模型：给定一些训练数据和一种网络架构，很多组权重值（即很多模型）都可以解释这些数据。简单模型比复杂模型更不容易过拟合。或者反过来说，复杂模型比简单模型更容易过拟合。

这里的简单模型是指：参数值分布的熵更小的模型；或者是参数更少的模型，比如IMDB中更小的例子（每层单元个数分别为4，4，1）。
因此，一种常见的降低过拟合的方法就是强制让模型权重只能取较小的值，从而限制模型的复杂度，让参数遵从一定规则的变小。这使得权重值的分布更加规则。这种方法叫做权重正则化。其实现方法是向网络损失函数中添加与较大权重值相关的成本。这种成本有两种形式：
（1）L1正则化：添加的成本与权重系数的绝对值成正比
（2）L2正则化：添加的成本与权重系数的平方成正比。神经网络的L2正则化也叫权重衰减，weight decay。权重衰减与L2正则化在数学上是完全相同的。
在keras中，添加权重正则化的方法是：向层传递权重正则化项实例作为关键字参数。

from keras import regularizers

model = models.Sequential()
model.add(layers.Dense(16, kernel_regularizer = regularizers.l2(0.001),
                       activation='relu', input_shape=(10000,)))
model.add(layers.Dense(16,kernel_regularizer = regularizers.l2(0.001), 
                       activation='relu'))
'''
l2(0.001)的意思是该层权重矩阵的每个系数都会使网络总损失增加 0.001 * weight_coefficient_value.
注意，由于这个惩罚项只在训练时添加，所以这个网络的训练损失会比测试损失大很多。
训练损失比测试损失大很多，说明训练集损失值大，测试集损失值小
'''
model.add(layers.Dense(1, activation='sigmoid'))

下图显示了L2正则化惩罚的影响：
在这里插入图片描述
从图中可以看出：即使两个模型的参数个数相同，具有L2正则化的模型（圆点）比参考模型（十字）更不容易过拟合。

Keras中不同的权重正则化项：

#keras中不同的权重正则化项
from keras import regularizers

regularizers.l1(0.001)#L1正则化
regularizers.l1_l2(l1=0.001, l2=0.001)#同时使用L1和L2正则化

三、添加dropout正则化
dropout是神经网络最有效也是最常用的正则化方法之一，它是由多伦多大学的Geoffrey Hinton和他的学生们开发的。对某一层使用dropout，就是在训练过程中随机将该层的一些输出特征舍弃（设置为0）。假设在训练过程中，某一层对给定输入样本的返回值应该是向量[0.2, 0.5, 1.3, 0.8, 1,1]，使用dropout后，这个向量会有几个随机的元素变成0，比如 [0, 0.5, 1.3, 0, 1.1]。dropout比率是被设为0的特征所占的比例，通常在0.2~0.5范围内。测试时没有单元被舍弃，而该层的输出值需要按dropout比率缩小，因为这时比训练时有更多的单元被激活，需要加以平衡。
在Keras中，可以通过Dropout层向网络中引入dropout，dropout将被应用于前面一层的输出

model.add(layers.Dropout(0.5))

现在向IMDB网络中添加两个Dropout层，来看一下它们降低过拟合的效果。

#向IMDB网络中添加dropout
model = models.Sequential()
model.add(layers.Dense(16, activation='relu', input_shape=(10000,)))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(16, activation='relu'))
model.add(layers.Dropout(0.5))
model.add(layers.Dense(1, activation='sigmoid'))

下图显示了dropouut正则化惩罚的影响：
在这里插入图片描述
从图中可以看出：再次见到，dropout正则化方法的性能相比参考网络有明显提高（验证损失有下降）。

总结：防止神经网络过拟合的常用方法包括：
（1）获取更多的训练数据；
（2）减少网络容量；
（3）添加权重正则化
（4）添加dropout。

说明：本文摘抄自《Python深度学习》 [美]弗朗索瓦·肖莱著张亮译。由于没有链接，所以文章标注为【原创】。在这个平台上发布这篇文章，一来，可以提供给需要的人作一些参考；二来，是为了自己查阅和回顾方便。

qq_36346625

关注

1
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
过拟合与欠拟合以及防止过拟合的常用方法

这篇博客是继IMDB数据集的例子写的，关于数据集准备以及model.compile()，model.fit()可以参见IMDB数据集的例子。在IMDB数据集的例子中，模型在留出的验证数据上的性能总是在几轮之后达到最高点，然后开始下降也就是，模型很快就在那训练数据上开始过拟合。过拟合存在于所有机器学习问题中，学会如何处理过拟合对掌握机器学习至关重要。机器学习的根本问题是优化和泛化之间的对立。优化...
复制链接

扫一扫