过拟合,欠拟合
一.什么是过拟合,欠拟合
1.过拟合:对训练集特征的过度学习,仅仅适合此训练集,在泛化使用的时候不能用于其他的数据集判断.
2.欠拟合:对于训练集特征学习的欠缺,同样不适用于其他数据集的判断
.
用一个表格来解释过拟合,欠拟合
训练集上的表现 | 测试集上的表现 | 结论 |
---|---|---|
不好 | 不好 | 欠拟合 |
好 | 不好 | 过拟合 |
好 | 好 | 适度拟合 |
二.过拟合的产生
-
训练集的数量级和模型的复杂度不匹配。训练集的数量级要小于模型的复杂度;
-
训练集和测试集特征分布不一致;
-
样本中的噪音数据干扰过大,大到模型过分记住了噪音特征,导致多余的记录;
-
权值学习迭代次数足够多(Overtraining),拟合了训练数据中的噪声和训练样例中没有代表性的特征。
总结来说主要原因在于:1训练数据中存在噪音 2.训练集太少
三.处理过拟合
1.丢弃一些不能帮助正确预测的特征,减小模型的复杂度(减小宽度和减小深度)
2.增加训练集的数量,减少过度学习的概率
3.正则化,保留所有的特征,减少参数的大小,或则使用一些模型选择的算法