我们已经证明了一些在有限假设集下成立的结论。但很多假设类实际包含了无限个函数,这种情况我们是否可以给出相似的结论?
让我们先举个不恰当的例子,它有助于我们的直观理解。
假设集
H
的空间由
d
个实参数控制。我们用电脑存储这些实数,而在电脑中一个double类型的实数需要用64位来表示。所以我们的假设类中包含了
用64位浮动点的例子来表示模型参数可能不是很正确,但得出的结论是完全正确的:为了实现训练误差最小化,训练样本数和假设类的参数个数线性相关。
VC维(Vapnik-Chervonenkis dimension)的定义:对于任一假设集 H , VC(H) 表示能被假设集 H 分割的最大样本集的样本数。
例如,含有三个点的样本集:
对于样本所有可能的情况,假设集 H 是否都能分割?答案是yes。
而对于4个样本点的情况,咋不能完全分割。
所以 VC(H)=3
定理:对任一假设集 H ,令 d=VC(H) ,概率大于 1−δ ,有:
还有:
即是说,如果假设类的VC维是有限数,当样本数
m
足够大时,假设将会一致收敛。即可以用最优训练误差
同理要使 |ε(h)−ε^(h)|≤γ 对所有假设成立的概率至少为 1−δ ,样本数量 m 必须满足:
由于VC维一般与假设集的参数个数线性相关,所以样本数(样本复杂度)与假设集的参数个数线性相关。