42-过拟合和欠拟合

前言

  上一篇博客学习了多项式回归的基本思路。有了多项式回归这样的武器,我们就可以轻松的对非线性数据进行拟合进而来求解回归问题。不过,过度的使用多线性回归这样的武器将会牵扯到机器学习领域一个非常重要的问题:过拟合(Overfitting)和欠拟合(Underfitting)

  下面将会用实际的例子说明什么是过拟合?什么是欠拟合?


过拟合和欠拟合

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  我们分析一下:很显然,多项式回归, d e g r e e degree degree 的值越大,最终的拟合结果会越好。其实这个道理非常容易,我们有这么多样本点,我们总能找到一根曲线,这根曲线可以将我们所有样本点都进行拟合。也就是说,让我们所有的样本点都完全落在这根曲线上,使得整体这个均方误差拟合的误差为0。

  如果我们要让拟合的结果为 0 的话,相应的多项式的次数( d e g r e e degree degree 的取值)一定是非常高的。

  在上面的实验中,我们实现 d e g r e e degree degree 从 2 到 10 到 100 逐渐递增,我们明显的看出来我们的均方误差在降低。

  不过在这个时候,我们可能会产生一个疑问?这个拟合的结果虽然从均方误差的角度来看是更加好的,但是它真的是一个能够更加好的反映样本数值走势的曲线吗?

  从上图显然可以看出来,并不是。我们用了一个非常高维的数据,虽然使得我们的样本点获得了更小的误差,但是这根曲线完全不是我们想要的。它为了能够拟合我们所有的样本点变得太过复杂了,那么这种情况我们就叫做过拟合(Overfitting)

  再回顾一下,刚开始我们是使用一根直线来拟合我们的数据,那么对于这种方式,它显然也并没有很好的反映我们原有数据的样本特征。但是它犯的错误并不是太过复杂了,而是太过简单了。那么这种情况就叫做欠拟合(Underfitting)
在这里插入图片描述
  我们使用多项式回归的方式可以非常直观的来解释欠拟合和过拟合。我们的原有数据如果是使用二次方程生成的话,那么我们使用一次方程得到的拟合结果显然就是欠拟合。而我们使用高于二次方程,尤其是 d e g r e e degree degree 为 10,100 或者更高得到的拟合的结果显然是过拟合的。


  这一篇博客主要介绍了欠拟合和过拟合相应的定义,那么我们怎样能够识别到底是欠拟合和过拟合呢?我将在下一篇博客进行介绍。

  具体代码见 42 过拟合和欠拟合.ipynb

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值