一:说明
过度拟合是指模型与训练数据拟合较好,训练误差很小或没有训练误差,但不能很好地推广到不可见数据。或者说在实际的整个数据分布(包含训练集以外实例)上表现不好时,称之为该模型存在过度拟合。
由于测试学习算法是否成功在于算法对于训练中未见过的数据的预测执行能力。
因此换句话说,模型的训练误差小,泛化误差高,两者间差距过大时,我们称之为该模型存在过度拟合。
二:产生的原因
通常过度拟合产生的原因有以下几种:
①由噪声导致:即训练集中存在有错误的类别值或类别标签
②训练样例太少,或者说缺乏代表性样本导致:即根据少量数据训练处的分类模型易受过度拟合的影响。