[lianyhai] 过拟合是什么东西?表现+原因+解决+代价+结果

过拟合(overfitting)是指模型参数拟合过程中,由于训练数据中包含抽样误差,对复杂模型进行训练的时候,他将抽样误差也学习进去了。

表现:泛化能力弱,在训练集上效果好,测试集上效果差。

原因:因为现在模型的复杂度非常高,比如深度学习,其参数规模达到1500000000个。如果放进去的数据太少维度太少那么,很可能会在拟合出数据中的规则的前提下,进一步拟合抽样导致的误差。

代价:(为什么要解决这个问题)很简单,机器学习模型是最小化样本误差,然后样本等于测试误差。所以最小样本误差就是最小话测试误差。而我们最终希望模型能够做出正确的预测。

解决:
1.获取更多的数据,同时要避免抽样误差。这就是说送进来的样本要尽可能代表总体的情况。第一,从数据源获取更多的数据,但是通常很难,也不能确定样本多少才合适。第二,利用训练数据的分布生成更多的数据,这个也会存在抽样误差。第三,数据增强,通过对数据进行剪切平移等等。
2.简化模型,如果数据太少没有办法克服,那么可以换一个简单的模型。
第一,正则化。
第二,增加噪音。现实情况,样本带有少量噪音,就告诉模型噪音很多,相当于L2的正则化。
3.集成学习,如果一个模型容易过拟合,那么多个模型一起学习就不会。兼听则明。
第一,bagging
第二,boosting
4.早停,让复杂模型的训练时间减少

结果:过拟合不可能完全避免。对于简单问题可能能够避免,但是对于机器学习要解决的问题通常是np难问题,而机器学习只能解决p问题,在多项式时间内运行。如果完全解决了过拟合问题就相当于np=p,这个现在来看不现实。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值