1、过拟合的定义
过拟合即过度学习,在当前数据集适应力较强,但是在新的数据集中表现性差,即泛化能力弱,鲁棒性差;
过拟合无法避免,只能缓解;
2、过拟合的原因
模型复杂度与数据量的相对比例;
当模型越复杂,对特征过度利用,数据量越少越容易过拟合。
例子:决策树没有剪枝的话很容易过拟合,对每一个特征都尽可能的利用,可能很多叶子节点最后只有个别样本,这就是过拟合;
3、过拟合的解决方法
1、降低模型复杂度(避免对特征过度利用)
1)、简化模型
2)、正则化
通过正则化,在损失函数中,增加W变大的惩罚;
3)、模型组合
训练多个模型,以每个模型的平均输出作为结果。
2、增加数据量