在上一篇博文中介绍了训练错误和实际错误。当训练错误很低,但是实际错误很高时,说明我们构造的分类器出现了过度拟合。出现过度拟合的原因是,我们设计的分类器过于复杂,以至于它可以记录所有的分类数据。这就导致了分类模型的可扩展性极差。因此,分类器的复杂程度是和训练数据规模密切相关的。训练数据规模越大,我们的分类器可以设计的越复杂。相反地,如果训练数据规模很小,复杂的分类器对训练效果有害无利。这就是著名的奥克姆剃刀所阐述的思想。
本文介绍的定理称为几乎估计正确学习保证(PAC learning guarantee)。这里的PAC是Probably approximately correct的简写。该定理说的是,对于一个给定的分类器,当数据规模充分大,那么零训练错误,必然导致小的真实错误。这就从理论上证明了零训练错误的意义。
定理7. 令 H 为有限个分类器构成的集合。令 ϵ 和 δ 为两个正实数。如果 S 是一个随机抽取的训练集,它的大小为n。对于
n>1ϵln(|H|+1δ)
时,以概率 >1−δ ,这个训练集满足
errD(h)<ϵ
对所有满足
errS(h)=0
的分类器成立。更确切地说
Pr{
∩h:errS(h)=0[errD(h