过拟合的形象描述(转自知乎)

 

作者:sheenapunk
链接:https://www.zhihu.com/question/32246256/answer/55467528
来源:知乎

一个overfitted模型记住太多training data的细节从而降低了generalization的能力。

举个栗子,给机器一堆人类的照片,告诉它性别,让它学习看照片区分男女。哇,机器好棒哦,一下子就能正确区分80%的照片的性别了!可是你觉得不够,怎么能容忍20%的错误率呢,啪啪啪键盘敲下去,让机器给我接着学。
机器不怎么聪明,可是记忆力和观察力是很强的!所以你一直push它的话,它会把每张照片每个像素的数值都记住的,这对每张照片都是独一无二的,再记住它的性别,就能100%区分出你给他的所有照片里人的性别了。

可是我们的目的不是让它成功区分这一堆照片里人的性别,而是让它看见新的不知道性别的人的照片时,可以成功预测性别。记住每个点的像素有个毛用?你会发现这个机器判断新的照片时表现很差。

这就是为什么要把training data切一小份(比如说10%)出来做validation,用剩下90%的data去train,然后用这10%检查一下train好的model,看看表现怎么样,防止over training。Cross validation也是这个意思,把data切10份,每次用一份做validation,做10次,能用到所有的training data。

转载于:https://www.cnblogs.com/JansXin/p/8309746.html

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值