2.1 经验误差与拟合
P23
- 错误率:分类错误的样本数占样本总数的比例
- 精度:精度=1-错误率
- 误差:学习器的实际预测输出与样本的真实输出之间的差异
- 训练误差:学习器在训练集上的误差
- 泛化误差:学习器在新样本上的误差
- 过拟合:把训练样本自身的一些特点当作所有潜在样本都会具有的一般性质
- 欠拟合:对训练样本的一般性质尚未学好
2.2评估方法
P24
通常采用实验测试对学习器的泛化误差进行评估并进而做出选择。因此需要一个:
- 测试集(testing set):来测试学习器对新样本的判别能力,然后以“测试误差”(testing error)作为泛化误差的近似。
测试样本要尽可能地不出现在训练集中。因此,通过对数据集D进行适当的处理,从中产生训练集S和测试集T。
2.2.1 留出法
P25
留出法(hold-out)直接将数据集D划分为两个互斥的集合,其中一个集合作为训练集S,另外一个作为测试集T。即D=S∪T,S∩T =Φ。在S上训练出来模型后,用T来评估其测试误差,作为对泛化误差的估计。
以二分类任务为例:
D=1000 S=700 T=300
用S进行训练之后,在模型T上有90个样本分类错误,那么错误率为(90/300)*100%=30%。因此精度为1-30%=70%
需要注意的是:
- 训练/测试集的划分要尽可能保持数据分布的一致性,避免因数据划分过程引入额外的偏差而对最终结果产生影响。若S、T中样本类别比例差别很大,则误差估计将由于训练/测试数据分布的差异而产生偏差。
- 在给定训练/测试集的样本比例之后,仍存在多种划分方式对初始数据集D进行分割。在采用留出法时,一般要采用若干次随机划分、重复进行试验评估后取平均值作为留出法的评估结果。
可能导致的问题:
- 若训练集S包含绝大多数的样本,则训练出的模型可能更接近于D训练出的模型,但由于T比较小,评估结果可能不够稳定准确;若令训练集T多包含一些样本,则训练集S与D差别更大了,从而降低了评估结果的真实性(fidelity)。
这个问题没有完美的解决方案,一般是用2/3~4/5的数据作为训练集。