经验误差与过拟合
通常我们把分类错误的样本数占样本总数的比例称为“错误率”。相应的精度就是用1-错误率。而误差就是学习器的实际预测输出与样本的真实输出之间的差异。“泛化误差”就是指在新样本上的误差。显然,我们希望得到泛化误差小的学习器。
我们实际希望的,是在新样本上能表现得很好的学习器。为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然而,当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。这种现象在机器学习中称为“过拟合”。相对的是“欠拟合”。下图给出了两种概念的类比。
然而过拟合是无法彻底避免的,我们所能做的只是“缓解”,关于这一点,可大致这样理解:机器学习面临的问题通常是NP难甚至更难,而有效的学习算法必然是在多项式时间内,运行完成,若可彻底避免过拟合,则通过经验误差最小化就能获最优解。
评估方法
留出法(未整理完)
留出法直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另一个作为测试集T,即D=S并上T,S交T等于空。在S上训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。