【机器学习】简单的例子解释什么是泛化、过拟合与欠拟合

泛化:如果一个模型能够对没见过的模型做出准确的预测,我们就说它能够从训练集泛化到测试集,也就是说,对于一个没有见过的样本也具有“举一反三”的识别能力。如,我们告诉计算机1+1=2,之后的算法通过自己学习,而推广到多位数的加减法。如果机器只会计算学过的数字,并没有学以致用的能力,则可以说明机器的泛化程度相当低,我们称之为过拟合。如果机器没有很好的数据学习能力,如1+3得出了5的答案,我们称之为欠拟合。

接下来看一个例子:预测顾客是否会买房。

训练集示例
年龄是否买房婚否子女数量
522
441
653
351

由上表我们可以得出一条规律:大于50岁、子女数量多于2个的顾客都会买房。但是,我们同样可以得出一条更简单的规律:大于50岁的顾客会买房。这条规律可以解释所有顾客行为,而不是与子女数量有关。那么,我们找到了简单的数据模型。如果将模型复杂化,如大于50岁、子女数量多于2个的顾客都会买房。那么就容易处于一种过分关注细节的状态,在训练集上表现很好,却不能泛化到所有新数据上。相反,有孩子的人都想买房,那么此时,你可能无法抓住数据的全部内容,在训练集上表现得很差。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值