机器学习_欠拟合和过拟合相关知识、问题及解决方法

最新推荐文章于 2024-04-03 15:22:18 发布

Rocky Ding*

最新推荐文章于 2024-04-03 15:22:18 发布

阅读量1.7k

点赞数 2

分类专栏：机器学习文章标签：深度学习机器学习过拟合神经网络人工智能

本文链接：https://blog.csdn.net/Rocky6688/article/details/103519055

版权

机器学习专栏收录该内容

19 篇文章 2 订阅

订阅专栏

一.误差、偏差和方差的理解

我们衡量一个机器学习算法是否好的时候，最直接的方法是衡量算法预测和测量数据的误差。比如对于训练数据，损失函数就是衡量这种误差的方法。

训练一个神经网络时，损失函数降到一个非常小的值，我们说网络很好地收敛了。然而当网络训练好以后，是否能对训练数据以外的数据也做出很好的预测呢？其实这才是更看重的指标，这种对训练数据以外数据做出准确预测的能力称为泛化（generalization）能力。

接下来我们先介绍误差、偏差和方差的相关知识：

误差

误差（Error）：一般地，我们把机器学习的实际预测输出与样本的真实输出之间的差异称为“误差”。

误差（Error） = 偏差（Bias） + 方差（Variance） + 噪声（Noise），误差反应的是整个模型的准确度。

噪声

噪声（Noise）：描述了在当前任务上任何学习算法所能达到的期望泛化误差的下界，即刻画了学习问题本身的难度。

偏差

偏差（Bias）：衡量了模型拟合训练数据的能力（训练数据不一定是整个数据集，可能只是用于训练的一部分数据，例如mini-batch），Bias反应的是所有采样得到的大小相同的训练集训练出的所有模型的输出平均值和真实模型输出之间的偏差，即模型本身的精确度。

偏差通常是由于我们对学习算法做了错误的假设所导致的，比如真实模型是某个二次函数，但我们假设模型是一次函数。

偏差（Bias）越小，拟合能力却强（可能产生过拟合）；反之，拟合能力越弱（可能产生欠拟合）。

偏差越大，越偏离真实数据，如下面的图所示。

方差

方差（Variance）公式： $S_{N}^{2}=\frac{1}{N}\sum_{i=1}^{N}(x_{i}-\bar{x})^{2}$

方差描述的是预测值的变化范围，离散程度，也就是离其期望值的距离。方差越大，数据的分布越分散，模型的稳定程度越差。

方差反应的是模型每一次输出结果与模型输出期望之间的误差，即模型的稳定性。由方差带来的误差通常体现在测试误差相对于训练误差的增量上。

方差通常是由于模型的复杂度相对于训练样本数过高导致的。

方差越小，模型的泛化能力越高；反之，模型的泛化能力越低。

如果模型在训练集上拟合效果比较优秀，但是在测试集上拟合效果比较差，则表示方差较大，说明模型的稳定程度较差，出现这种现象可能是由于模型对训练集过拟合造成的。

接下来我们用下面的射击的例子进一步解释这二者的区别。假设一次射击就是一个机器学习模型对一个样本进行预测。射中靶心位置代表预测准确，偏离靶心越远代表预测误差越大。我们通过n次采样得到n个大小为m的训练样本集合，训练出n个模型，对同一个样本做预测，相当于我们做了n次射击，左上角是最好的结果。

在这里插入图片描述

经验误差与泛化误差

经验误差（empirical error）：也叫训练误差（training error），模型在训练集上的误差。

泛化误差（generalization error）：模型在测试集上的误差称为“泛化误差”或者称之为“测试误差（test error）”。

一般来说，训练误差是否变小代表着学习的过程是否收敛，而测试误差是否足够小则和模型对于未见过的样本预测能力的好坏直接相关。

通常来说，测试误差总是大于训练误差，不过这两者随着模型能力的变化趋势并不相同。

泛化误差于偏差、方差和噪声的关系

泛化误差 = 偏差 + 方差 + 噪声

接下来我们具体推导一下：

在这里插入图片描述

二.欠拟合和过拟合

首先我们看一个一维拟合的例子：

在这里插入图片描述

上面的三个图都是同样的数据点，这些点都是由一个“倒U”形状的曲线叠加一个高斯分布的噪声产生的。其中红色的圆点是用来训练的数据，蓝色的三角形点则是测试的数据。红色的点和蓝色的点都来自同一个分布。 在机器学习中，这种分布通常称为数据产生分布（data-generating distribution），训练数据和测试数据来源于同一分布，是机器学习中的一个基本假设。

在数据同分布的假设下，从训练数据中学习到的特征，才能有效预测没有见过但是和训练数据来源于同一分布的数据，这个过程就是泛化。

上图a中尝试用一个线性的模型去拟合红色的圆点数据，结果是训练集和测试集都难以学习好。其根本原因是线性拟合的模型过于简单，表达能力不足以学习到数据点的特征，这样的情况我们称之为欠拟合。

上图b中的模型非常复杂，，比如可以是一个包含很多高次项的多项式，或者是一个隐藏层单元很多的双层神经网络。这样的模型有了很强的表达能力，训练集上很好的拟合。但是这个模型连噪声数据的特征都学习了，丧失了对测试集的泛化能力，称为过拟合。

上图c中用一个适度复杂的模型，成功的学习到了数据的趋势，这才是我们想要的模型。

如何解决欠拟合：

可以增加模型复杂度。对于神经网络可以增加网络层数或者神经元数量。
减小正则化系数。正则化的目的是用来防止过拟合的，但是现在模型出现了欠拟合，则需要有针对性地减小正则化系数。
Boosting。

如何解决过拟合：

重新清洗数据，数据不纯会导致过拟合，此类情况需要重新清洗数据或重新选择数据。
增加训练样本数量。使用更多的训练数据是解决过拟合最有效的手段。我们可以通过一定的规则来扩充训练数据，比如在图像分类问题上，可以通过图像的平移、旋转、缩放、加噪声等方式扩充数据;也可以用GAN网络来合成大量的新训练数据。
降低模型复杂程度。适当降低模型复杂度可以避免模型拟合过多的噪声数据。在神经网络中减少网络层数、神经元个数等。
加入正则化方法，增大正则项系数。给模型的参数加上一定的正则约束，比如将权值的大小加入到损失函数中。
采用dropout方法，dropout方法就是在训练的时候让神经元以一定的概率失活。
提前截断（early stopping）。
减少迭代次数。
增大学习率。
集成学习方法。集成学习是把多个模型集成在一起，来降低单一模型的过拟合风险，如Bagging方法。