机器学习模型的过拟合与欠拟合

Daitu_Adam

已于 2024-02-24 14:38:16 修改

阅读量1.2k

点赞数 15

分类专栏：带土的Python应用文章标签：机器学习 python 人工智能

于 2024-02-24 14:36:27 首次发布

本文链接：https://blog.csdn.net/daitulin/article/details/136271632

版权

带土的Python应用专栏收录该内容

12 篇文章 0 订阅

订阅专栏

本文介绍了机器学习模型训练中遇到的欠拟合、正常拟合和过拟合现象，通过可视化实例说明了它们的区别。并提供了通过增加数据量、合理数据切分和正则化等方法来避免或解决欠拟合和过拟合的问题。

摘要由CSDN通过智能技术生成

机器学习模型的训练过程中，可能会出现3种情况：模型欠拟合、模型正常拟合与模型过拟合。其中模型欠拟合与模型过拟合都是不好的情况。下面将会从不同的角度介绍如何判断模型属于哪种拟合情况。

（1）欠拟合与过拟合表现方式

欠拟合：欠拟合是指不能很好的从训练数据中，学习到有用的数据模式，从而针对训练数据和待预测的数据，均不能获得很好的预测效果。如果使用的训练样本过少，较容易获得欠拟合的训练模型。

正常拟合：模型的正常拟合是指训练得到的模型，可以从训练数据集上学习得到了泛化能力强、预测误差小的模型，同时该模型还可以针对待测试的数据进行良好的预测，获得令人满意的预测效果。

过拟合：过拟合是指过于精确地匹配了特定数据集，导致获得的模型不能良好地拟合其他数据或预测未来的观察结果的现象。模型如果过拟合，会导致模型的偏差很小，但是方差会很大。

上面的介绍可能不能直观的快速了解数据的三种拟合情况，下面分别介绍针对分类问题和回归问题，不同任务下的拟合效果，获得的模型对数据训练后的表示形式。针对二分类问题可以使用分界面，表示所获得的模型与训练数据的表现形式，图1表示三种情况下的数据分界面。

图1 分类问题的三种数据拟合情况

从图1可以发现：欠拟合的数据模型较为简单，因此获得的预测误差也会较大，而过拟合的模型则正相反，其分界面完美的将训练数据全部分类正确，获得的模型过于复杂，虽然训练数据能够百分百预测正确，但是当预测新的测试数据时会有较高的错误率。而数据正常拟合的模型，对数据的拟合效果则是介于欠拟合和过拟合之间，训练获得不那么复杂的模型，保证在测试数据集上的泛化能力。三种情况在训练数据集上的预测误差的表现形式为：欠拟合>正常拟合>过拟合；而在测试集上的预测误差形式为：欠拟合>过拟合>正常拟合。

针对回归问题，在对连续变量进行预测时，三种数据拟合情况可以使用图2来表示。三幅图分别表示对一组连续变量进行数据拟合时，可能出现的欠拟合、正常拟合与过拟合的三种情形。

图2 回归问题的三种数据拟合情况

很多时候面对高维的数据，很难可视化出分类模型的分界面与回归模型的预测效果，那么如何判断模型的拟合情况呢？针对这种情况，通常可以使用两种判断方案。第一种是，判断在训练集和测试集上的预测误差的差异大小，正常拟合的模型通常在训练集和测试集上的预测误差相差不大，而且预测的效果均较好；欠拟合模型在训练集和测试集上的预测效果均较差；过拟合模型则会在训练数据集上获得很小的预测误差，但是在测试集上会获得较大的预测误差。另一种方式，是可视化出模型在的训练过程中，三种不同的数据拟合情况，在训练数据和测试数据（或验证数据）上的损失函数变化情况，如图3所示。

图3三种数据拟合情况的损失函数变化情况

（2）避免欠拟合与过拟合的方法

实践过程中，如果发现训练的模型对数据进行了欠拟合或者过拟合，通常要对模型进行调整，解决这些问题是一个复杂综合的过程，而且很多时候要进行多项的调整，下面介绍一些可以采用的相关解决方法。

增加数据量：如果训练数据较少，通常可能会导致数据的欠拟合，也会发生在训练集上的过拟合问题。因此更多的训练样本通常会使模型更加的稳定，所以训练样本的增加不仅可以得到更有效的训练结果，也能在一定程度上调整模型的拟合效果，增强其泛化能力。但是如果训练样本有限，也可以利用数据增强技术对现有的数据集进行扩充。

合理的数据切分：针对现有的数据集，在训练模型时，可以将数据集进行切分为训练集、验证集和测试集（或者使用交叉验证的方法）。在对数据进行切分后，可以使用训练集来训练模型，并且通过验证集来监督模型的学习过程，也可以在网络过拟合之前提前终止模型的训练。在模型训练结束后，可以利用测试集来测试训练结果的泛化能力。

当然在保证数据尽可能的来自同一分布的情况下，如何有效的对数据集进行切分也很重要，传统的数据切分方法通常是按照60:20:20的比例拆分，但是针对数据量的不同，数据切分的比例也不尽相同，尤其在大数据时代，如果数据集有几百万甚至上亿级条目时，这种60:20:20比例的划分已经不再合适，更好的方式是将数据集的98%用于训练，保证尽可能多的样本接受训练，使用1%的样本用于验证集，这1%的数据已经有足够多的样本来监督模型是否过拟合，最后使用1%的样本测试网络的泛化能力。所以针对数据量的大小、网络参数的数量，数据的切分比例可以根据实际的需要来确定。

正则化方法：正则化方式是解决模型过拟合问题的一种手段，其通常会在损失函数上添加对训练参数的惩罚范数，通过添加的范数惩罚对需要训练的参数进行约束，防止模型过拟合。常用的正则化参数有L1和L2范数，范数惩罚项的目的是将参数的绝对值最小化，范数惩罚项的目的是将参数的平方和最小化。使用正则化防止过拟合非常有效，如在经典的线性回归模型中，使用L1范数正则化的模型叫做Lasso回归，使用L2范数正则化的模型叫做Ridge回归。

参考书籍：《Python机器学习算法与实战》——孙玉林，余本国著