一、经验误差与过拟合
1、错误率:分类错误的样本数占样本总数的比例
2、精度 = 1 - 错误率
3、实际预测输出与样本的真实输出之间的差异被称为“误差”(error);在训练集上的误差被称为“训练误差”(training error)或“经验误差”(empirical error);在新样本上的误差被称为“泛化误差”(generalization error)
4、过拟合:当学习器把训练样本学得“太好”了的时候,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降
5、欠拟合:对训练样本的一般性质尚未学好
6、导致过拟合的主要原因之一是学习器的学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了
7、欠拟合则主要是因为学习器的学习能力太低下
8、过拟合是无法彻底避免的,我们所能做的只是缓解。而欠拟合则比较容易克服,例如在决策树学习中扩展分支、在神经网络学习中增加训练轮数等
二、评估方法
准确率(precision) P = TP / (TP + FN)
召回率(recall) R = TP / (TP + TN)
TP:True Positive, 真正例,实际为正例,预测也为正例
FN:False Negative,假反例,实际为正例,预测为反例
TN:True Negative,真反例,实际为反例,预测为反例
FP:False Positive,假正例,实际为反例,预测为正例