什么是过拟合?

   过拟合很好理解,今天在知乎上看到eyounx这么解释,挺形象的,大致是这么个说法:在机器学习中,我们提高了在训练数据集上的表现力时,在测试数据集上的表现力反而下降了,这就是过拟合。

  过拟合发生的本质原因,是由于监督学习的不适定性。比如我们再学习线性代数时,给出n个线性无关的方程,我们可以解出来n个变量,但是肯定解不出来n+1个变量。在机器学习中,如果数据(对应于方程)远小于模型空间(对应求解的变量),那么,就容易发生过拟合现象。

  所以说,有限的训练数据并不能反映出一个模型的好坏,然而我们却不得不根据这有限个数据来挑选模型。因此,我们完全有可能挑选出在训练数据上表现很好,但是在测试集上表现很差的模型。因为在进行测试之前,我们并无法知道模型在测试数据上的表现。如果模型空间很大,也就是说有很多模型供我们挑选,那么,我们挑选对的模型的概率就会下降。但与此同时,如果想在训练集上表现良好,最直接的办法就是在足够大的模型空间中挑选模型,如果模型空间太小,我们就很难挑选出将训练集拟合的很好的模型。综上所述,如果想要拟合好训练数据,就需要足够大的空间模型。但是,如果模空间太大,挑选到好的模型的概率就会下降。因此,就会出现过拟合现象。

  对于过拟合现象,有多种解释。

(1)经典的bias-variance decomposition.比较直观

(2)PAC-learning泛化界解释。我个人更倾向这个

(3)Bayes先验解释。

  • 7
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值