在上一篇博文中提到,如果训练数据的规模充分大,那么当训练错误为0时,真正错误会趋近于0。这是机器学习训练算法有效性的理论依据。但是,在实际设计模型时,我们很难找到一个分类器,其训练错误为0。为此,本文介绍训练数据充分性的第二个引理。它的结论是当训练数据更大一些时,训练错误与实际错误可以无限接近。这样,我们就可以利用训练错误来估计实际错误了。
定理8. 设 H 是一个分类器集合。令 ϵ 和 δ 是正实数。假设 S 是一个由n个随机实例构成的随机训练集合。每个实例都以分布D从实例空间中独立同分布地获得。那么当
时,以概率 >1−δ , 有
|errS(h)−errD(h)|<ϵ
对所有的 h∈H 成立。更确切地说:
Pr{
∩h∈