拟合、欠拟合与过拟合

lilinfei001

于 2020-08-02 11:28:19 发布

阅读量1.9k

点赞数

分类专栏：数据分析文章标签：概率论机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lilinfei001/article/details/107742248

版权

数据分析专栏收录该内容

7 篇文章 0 订阅

订阅专栏

什么是拟合、适度拟合、欠拟合、过拟合

每种机器学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法，但是他们的假设是不一样的，朴素贝叶斯假设变量之间是独立的，决策树的假设是集合之间的纯净度或混乱程度。参数就是根据假设和训练样本推导出来的数据，朴素贝叶斯的参数就是先验概率和条件概率，决策树的参数就是各个节点以及节点上的决策条件。

我们平时接触了很多监督机器模型，都会提到训练一个模型，更学术一点的术语叫拟合一个模型。

所谓模型拟合（Model fitting）就是根据模型假设和样本推导参数的过程，然后根据推导出的参数，与预测新的数据。

我们举一个线性回归的例子。如下图所示。数据点分布在一个二维空间上，黑色的点是训练样本，X轴是唯一的自变量，Y轴是因变量。

图片来源极客时间

根据训练样本拟合出一条黑色的曲线，有了这条曲线，我们就可以根据测试数据的X轴取值（x'）来预测Y轴的值(y')，即根据自变量预测因变量，达到预测效果，这种情况称为适度拟合(right fitting)。

图片来源：极客时间

有的时候拟合得到的模型过于简单，和训练样本之间误差较大，这种情况称为欠拟合（Under Fitting）

比如下面这张图，跟第一张图相比，离数据点的距离更大。这种拟合模型和训练样本之间的差异我们称为偏差（Bias）

图片来源：极客时间

欠拟合的模型过于简单，不能很好拟合训练样本，测试样本的结果也会比较差。

欠拟合相对应的是过拟合（Over fitting），这种情况是得到的模型特别复杂和精细，与训练样本之间的误差特别小，比如下面这张图。跟第一张曲线图相比，离数据点的距离更近，也就是偏差更小。初学者可能会认为过拟合比较好，其实不然。过拟合在测试样本上表现的特别好，但是在测试样本上表现的就不理想了。主要原因训练样本跟测试样本不太一样。我们把测试样本和训练样本之间存在的差异，称为方差（variance）。过拟合的模型泛化能力较弱，无法更好地处理新的数据。

图片来源：极客时间

在监督机器学习中，欠拟合、适度拟合、过拟合是逐步演进的，如下图所示。

图片来源：极客时间

在这个图中中，X轴表示模型复杂度，Y轴表示预测误差，蓝色曲线代表模型在训练样本上的表现，蓝色曲线与X轴的距离表示偏差。红色曲线表示模型在测试样本上的表现，红色曲线与蓝色曲线的距离为方差。

图中的模型越来越复杂，对训练样本的拟合越好，所以偏差会越来越好，由于过度接近训练样本，在测试样本上表现的不理想，所以方差比较大。

图中左边是高偏差，低方差，为欠拟合，右边为低偏差，高方差为过拟合。

如何处理欠拟合、过拟合

想要解决一个问题，首先得知道其产生的原因。欠拟合产生的原因是特征维度过少，拟合的模型过于简单，无法满足训练样本，最终导致误差较大。为了解决欠拟合，我们可以增加特征维度，让输入的样本具有更强的表达能力。

过拟合的主要原因是特征维度过多，导致模型过于复杂，使得模型完美符合训练数据，但是对于测试数据或新数据，表现较差。为了解决过拟合，我们可以减少特征维度。

以上内容，整理自极客时间学习笔记。

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
拟合、欠拟合与过拟合

什么是拟合、适度拟合、欠拟合、过拟合每种机器学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法，但是他们的假设是不一样的，朴素贝叶斯假设变量之间是独立的，决策树的假设是集合之间的纯净度或混乱程度。参数就是根据假设和训练样本推导出来的数据，朴素贝叶斯的参数就是先验概率和条件概率，决策树的参数就是各个节点以及节点上的决策条件。我们平时接触了很多监督机器模型，都会提到训练一个模型，更学术一点的术语叫拟合一个模型。所谓模型拟合（Model fitting）就是根据模型假设和样本推导参数的
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。