过拟合

过拟合

在各类机器学习问题中,常常会出现过拟合问题。

原因&现有方案

原因来自许多方面,包括样本量少、样本存在噪声、模型复杂度高等等。解决方法也有很多,常见的方法包括在合适的时间停止训练、使用验证集、交叉验证、权值衰减、正则化等等。

数据清洗

从这些解决办法上可以看到一些相同的地方,就是大都是从训练过程加以实施,在一定程度上给大家一种问题出在模型上的感觉,但本质上的原因是样本中含有噪声。打个比方,需要做一道菜,但是买到的蔬菜中有泥沙,现在的方法不是把泥沙洗掉,而是让厨师在炒菜的过程中下功夫,让最后的菜尽量不包含泥沙。这样做也是可以的,但更加合适的思路应该是寻找一种判断泥沙(噪声)的方式,一开始就对蔬菜(样本)做预处理,得到干净的蔬菜(样本),便可以更加从容的进行后面的环节。
从通用的角度来看,新的思路也更加合适,因为现有的方法往往都要针对具体问题设计抑制过拟合的措施,调整选择超参数。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值