拟合、欠拟合与过拟合

什么是拟合、适度拟合、欠拟合、过拟合

每种机器学习模型都有自己的假设和参数。虽然朴素贝叶斯和决策树都属于分类算法,但是他们的假设是不一样的,朴素贝叶斯假设变量之间是独立的,决策树的假设是集合之间的纯净度或混乱程度。参数就是根据假设和训练样本推导出来的数据,朴素贝叶斯的参数就是先验概率和条件概率,决策树的参数就是各个节点以及节点上的决策条件。

我们平时接触了很多监督机器模型,都会提到训练一个模型,更学术一点的术语叫拟合一个模型。

所谓模型拟合(Model fitting)就是根据模型假设和样本推导参数的过程,然后根据推导出的参数,与预测新的数据。

我们举一个线性回归的例子。如下图所示。数据点分布在一个二维空间上,黑色的点是训练样本,X轴是唯一的自变量,Y轴是因变量。

图片来源极客时间

根据训练样本拟合出一条黑色的曲线,有了这条曲线,我们就可以根据测试数据的X轴取值(x')来预测Y轴的值(y'),即根据自变量预测因变量,达到预测效果,这种情况称为适度拟合(right fitting)。

图片来源:极客时间

有的时候拟合得到的模型过于简单,和训练样本之间误差较大,这种情况称为欠拟合(Under Fitting)

比如下面这张图,跟第一张图相比,离数据点的距离更大。这种拟合模型和训练样本之间的差异我们称为偏差(Bias)

图片来源:极客时间

欠拟合的模型过于简单,不能很好拟合训练样本,测试样本的结果也会比较差。

欠拟合相对应的是过拟合(Over fitting),这种情况是得到的模型特别复杂和精细,与训练样本之间的误差特别小,比如下面这张图。跟第一张曲线图相比,离数据点的距离更近,也就是偏差更小。初学者可能会认为过拟合比较好,其实不然。过拟合在测试样本上表现的特别好,但是在测试样本上表现的就不理想了。主要原因训练样本跟测试样本不太一样。我们把测试样本和训练样本之间存在的差异,称为方差(variance)。过拟合的模型泛化能力较弱,无法更好地处理新的数据。

图片来源:极客时间

在监督机器学习中,欠拟合、适度拟合、过拟合是逐步演进的,如下图所示。

图片来源:极客时间

在这个图中中,X轴表示模型复杂度,Y轴表示预测误差,蓝色曲线代表模型在训练样本上的表现,蓝色曲线与X轴的距离表示偏差。红色曲线表示模型在测试样本上的表现,红色曲线与蓝色曲线的距离为方差。

图中的模型越来越复杂,对训练样本的拟合越好,所以偏差会越来越好,由于过度接近训练样本,在测试样本上表现的不理想,所以方差比较大。

图中左边是高偏差,低方差,为欠拟合,右边为低偏差,高方差为过拟合。

如何处理欠拟合、过拟合

想要解决一个问题,首先得知道其产生的原因。欠拟合产生的原因是特征维度过少,拟合的模型过于简单,无法满足训练样本,最终导致误差较大。为了解决欠拟合,我们可以增加特征维度,让输入的样本具有更强的表达能力。

过拟合的主要原因是特征维度过多,导致模型过于复杂,使得模型完美符合训练数据,但是对于测试数据或新数据,表现较差。为了解决过拟合,我们可以减少特征维度。

以上内容,整理自极客时间学习笔记。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值