过拟合
在各类机器学习问题中,常常会出现过拟合问题。
原因&现有方案
原因来自许多方面,包括样本量少、样本存在噪声、模型复杂度高等等。解决方法也有很多,常见的方法包括在合适的时间停止训练、使用验证集、交叉验证、权值衰减、正则化等等。
数据清洗
从这些解决办法上可以看到一些相同的地方,就是大都是从训练过程加以实施,在一定程度上给大家一种问题出在模型上的感觉,但本质上的原因是样本中含有噪声。打个比方,需要做一道菜,但是买到的蔬菜中有泥沙,现在的方法不是把泥沙洗掉,而是让厨师在炒菜的过程中下功夫,让最后的菜尽量不包含泥沙。这样做也是可以的,但更加合适的思路应该是寻找一种判断泥沙(噪声)的方式,一开始就对蔬菜(样本)做预处理,得到干净的蔬菜(样本),便可以更加从容的进行后面的环节。
从通用的角度来看,新的思路也更加合适,因为现有的方法往往都要针对具体问题设计抑制过拟合的措施,调整选择超参数。