1.基本概念介绍:
1.1经验误差与泛化误差
通常把分类错误的样本数占样本总数的比例称为错误率(error rate),即如果在m个样本中有a个样本分类错误,则错误率为E=a/m。相应地,1-a/m称为精度(accuracy),而把学习器的实际预测输出与样本的真实输出之间的差异称为误差(error)。学习器在训练集上的误差称为“训练误差(training error)”或“经验误差(empirical error)”,在新样本上的误差称为“泛化误差(generalization error)”。显然,我们希望得到泛化误差小的学习器,然而在事先不知道新样本是什么的情况下,实际能做的是努力使经验误差最小化。
1.2过拟合和欠拟合
(1)过拟合:最常见的过拟合情况是学习器的学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了。
(2)欠拟合:通常是由学习能力低下造成的。可以通过在决策树学习中扩展分支、在神经网络学习中增加训练轮数等来克服。