过拟合和欠拟合都属于模型泛化能力不强的两种原因,均是模型学习能力和数据复杂性失调的表现。
1.过拟合
在训练集效果好,验证集和测试集效果差。验证集loss先降后升。
原因:训练集数据不足,类型单一。存在噪声,指的是有干扰数据,很多错误的特征。而导致忽略真实的样本特征。模型复杂度过高。
解决办法:样本均匀,数据进行清洗,防止噪声数据干扰模型。降低模型复杂度。正则化,添加dropout、L1、L2.。交叉检验。早停策略。
2.欠拟合
训练集、验证集和测试集效果都很差。
原因:模型没有充分学到数据的信息特征。
解决办法:提高模型复杂度、特征工程,添加更多的特征信息、减少正则化系数、集成学习方法。