一、 经验误差
一般在分类问题中,我们把分类错误的样本数占样本总数的比例称作“错误率”,即如果在m个样本中有a个样本分类错误,则错误率为E=a/m;则相对的,1-E称为精度,即精度=1-错误率。
更一般的,我们把学习器的实际预测输出与样本的真实输出之间的差异称为误差,学习器在训练集上的误差称为训练误差或经验误差,在新样本上的误差称为测试误差或泛化误差。
显然,我们希望得到泛化误差小的学习器。然而,我们事先并不知道新样本是什么样,实际能做的是努力使经验误差最小化.在很多情况下,我们可以学得一个经验误差很小、在训练集上表现很好的学习器,例如甚至对所有训练样本都分类正确,即分类错误率为零,分类精度为 100%,但这是不是我们想要的学习器呢?遗憾的是,这样的学习器在多数情况下都不好。
二、过拟合与欠拟合
我们实际希望的,是在新样本上能表现得很好的学习器。为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的"普遍规律",这样才能在遇到新样本时做出正确的判别。
然而,当学习器把训练样本学得“太好”时,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样会致使泛化性能的下降,这种现象在机器学习中称作“过拟合”,与过拟合相对的是“欠拟合”,欠拟合是指对训练样本的一般性质尚未学好。
三.、导致欠/过拟合的原因
最常见的情况是由于学习能力过于强大,以至于把训练样本包含的不太一般的特性都学到了,而欠拟合通常是由于学习能力不足引起的。
欠拟合较为容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等,而过拟合问题的解决较为麻烦,也是机器学习面临的关键障碍,各类学习算法都会有针对过拟合的措施,但是过拟合是无法完全避免的,我们能做的只是“缓解”。