机器学习：过拟合

最新推荐文章于 2024-08-03 13:57:10 发布

harden_sense

最新推荐文章于 2024-08-03 13:57:10 发布

阅读量3k

点赞数

分类专栏：机器学习文章标签：机器学习人工智能深度学习

本文链接：https://blog.csdn.net/jiaolong123456/article/details/121329983

版权

机器学习专栏收录该内容

13 篇文章 3 订阅

订阅专栏

过拟合

通俗来讲过拟合就是，选用的模型过于复杂。 $d_{vc}$ 过大，模型在训练集上有很好的表现。但是在真实预测过程中的表现和训练集上的差别过大。也就是没有做到机器学习的两个核心要打求之一的 $E_{in}\approx{E_{out}}$ 。

过拟合详细分析

在这里插入图片描述
假如有五个点是通过二次抛物线 $f (x)$ 产生的，产生之后加入少量的误差 $f (x) = f (x) + n o i s e$ 。如上图中的五个点。我们的理想曲线是一条抛物线，左图中红色的线就和目标函数非常的接近，虽然会产生误差，但是这条线是相对而言比较好的，可以很好的预测其他数据。

右图中，我们用一条复杂的三次曲线来拟合这五个点。他的误差基本上接近0.但是，这条在训练集上几乎没有误差的线和目标函数相差非常大。由VC Bound理论可以知道：假设函数的阶数越大，VC dimension也就随之增大，模型的复杂度就会越高。就很容造成 $E_{in}\neq{E_{out}}$ 的情况。模型的泛化能力也会较差。
在这里插入图片描述
上图中的很好的反应了 $d_{vc}$ 和误差之间关系：当 $d_{vc}$ 过大的时候模型会比较复杂，样本误差和输出误差的差距就会增大。模型的泛化能力机会很差。

实际应用过程中，训练模型时，经常通过查看训练集的损失曲线和验证集的损失曲线判断模型的拟合情况。欠拟合对应的曲线为训练损失和验证损失都在下降，但还没有到达最低点；过拟合对应的曲线为训练损失不断下降，验证损失先下降后上升。

泛化能力差与过拟合的关系可以描述为：过拟合是导致泛化能力差的原因。

通过一个开车的列子进行对比说明：
在这里插入图片描述

噪声和数据集对过拟合影响

设计两个数据集，一个由10次多项式加误差产生。另一个由50次多项式不包含误差产生。
在这里插入图片描述
接下来，使用两个学习模型（假设函数），分别对以上的问题进行建模。其中一个为二次多项式 (假设空间为 $H _2$ )，另一个为十次多项式 (假设空间为 $H _{10}$ )。两种模型对两个问题的拟合结果如下图所示：
在这里插入图片描述
绿色的线表示二次多项式的模型，红色的线表示10次多项式的学习模型。从结果来看，在训练集上二次多项式的结果不如十次多项式，但是从最终的预测结果来看，二次多项式是优于十次多项式的。也就是说十次多项式发生了过拟合问题。来观察二者的学习曲线：
在这里插入图片描述
在学习曲线中，横轴是样本数量N，纵轴是误差Error。 $E_{in}$ 和 $E_{out}$ E 可以表示为：
$E_{in}=noise*(1-\frac{d+1}{N})$
$E_{in}=noise*(1+\frac{d+1}{N})$
其中d为模型的阶次，也就是数据集的特征数量。

从图中可以看出，当数据集的样本数量比较小的时候， $H_2$ 的 $E_{in}\approx{E_{out}}$ ，也就是说模型的泛化能力比较好。而右边 $H_{10}$ 当样本数量足够大的时候，能够做到 $E_{in}\approx{E_{out}}$ 并且误差还小于 $H_2$ 的。然而当样本数量比较小的时候， $H_{10}$ 的 $E_{in}\neq{E_{out}}$ 泛化能力较差。这个分析告诉我们对于高阶模型，Z域中的特征很多的时候，需要的样本数量就必须足够的大，否则容易造成维度灾难。

确定性噪声

这次详细的分析一下什么时候考虑过拟合。

假设产生的数据分由两个部分组成：第一部分是目标函数 $f (x)$ ，使用复杂度 $Q_f$ 表示，也就是 $Q_f$ 阶多项式；第二部分是噪声，服从高斯分布，噪声轻度为 $\sigma{^2}$ 。接下来分析噪声的强度不同对过拟合有什么样影响，数据量为N。
在这里插入图片描述
可以得出过拟合与噪声强度、目标函数复杂度、样本数量都有一定的关系，固定一个参数，观察其他两个参数对模型的影响。

上图中，左图表示固定模型复杂度（模型阶数） $Q_f=20$ 样本数量和噪声对过拟合的影响。右图固定噪声 $\sigma{^2}=0.1$ 时样本数量和目标函数复杂度对过拟合的影响。