错误率:分类错误的样本数占样本总数的比例
精度:1-错误率
误差:学习器的实际预测输出与样本的真实输出之间的差异
训练误差/经验误差:学习器在训练集上的误差
泛化误差:学习器在新样本上的误差
过拟合
定义:在训练集上表现好,在测试集上表现差,模型的泛化性能低。(学习器把训练样本学得太好了,很可能已经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质)
原因:学习能力过于强大,以至于把训练样本所包含的不太一般的特性都学到了。
解决:降低模型复杂度,特征降维、加入噪声
欠拟合
定义:对训练样本的一般性质尚未学好,训练集和测试集表现都不好。
原因:学习能力低下
解决:决策树学习中扩展分支;神经网络学习中增加训练轮数等。
(自学笔记,待完善)