上一篇用成长函数
mH(N)
来衡量Hypotheses Set
H
中有效的方程的数量(Effective Number of Hypotheses),以取代Hoeffding’s Inequality中的大
学习所需”维他命”(The VC Dimension)
根据之前得到的式子,我们知道如果一个 H 存在break point,我们就有办法保证学出来的东西能够“举一反三”(good generalization)。一般来说break point越大的
根据定义,一个
上式右边(RHS)事实上是最高项为 dvc 的多项式,利用数学归纳法可得:
更加一般化的Bound (The VC Generalization Bound)
上一篇的末尾我们设想利用有限的
mH(N)
来替换无限的大
M
,得到
其中 ℙD[BADD] 是 H 中所有有效的方程(Effective Hypotheses)遇到Bad Sample的联合概率,即
注: ∃h∈ s.t. H 中存在(∃)满足
但事实上上面的不等式是不严谨的,为什么呢?
假设我们能从总体当中再获得一份N笔的验证资料(verification set)D′,对于任何一个h我们可以算出它作用于D′上的 Ein′ ,由于D′也是总体的一个样本,因此如果E_in和E_out离很远,有非常大的可能 Ein 和 Ein′ 也会离得比较远。
事实上当N很大的时候, Ein 和 Ein′ 可以看做服从以 Eout 为中心的近似正态分布(Gaussian),如上图。[|E_in−E_out| is large]这个事件取决于,如果[|E_in−E_out| is large],则如果我们从总体中再抽一份′出来,有50%左右的可能性会发生[|E_in−E_in′| is large],还有大约50%的可能[|E_in−E_in′| is not large]。
因此,我们可以得到ℙ[|E_in−E_out| is large]的一个大概的上界可以是2ℙ[|E_in−E_in′| is large],以此为启发去寻找二者之间的关系。
引理:
上面的不等式是从何而来的呢?我们先从RHS出发:
上式第二行的不等号可以由
下面来看看不等式的最后一项
ℙ[suph∈ |E_in(h)−E_in′(h)|>ϵ2|suph∈ |E_in(h)−E_out(h)|>ϵ]
。对于一个固定的data set D来说,我们任选一个h*使得|E_in(h*)−E_out(h*)|>ϵ,注意到这个h*只依赖于而不依赖于′噢,对于′来说可以认为这个h* is forced to pick out。
由于h*是对于D来说满足|E_in−E_out|>ϵ的任意一个hypothesis,因此可以把式子中的上确界(sup)先去掉。
这里就要稍微出动一下前人的智慧了:
为了直观一点h*就不写了。经过各种去掉绝对值符号又加上绝对值符号的运算,可以发现LHS的两个不等式是RHS那个不等式的充分非必要条件。而LHS第二个不等式是已知的,对于h*必成立的。因此我们拿LHS这个充分非必要条件去替换RHS这个不等式,继续前面的不等式:
最后一个不等号动用了Hoeffding Inequality:
之前说过对于D′来说,h* is forced to pick out,因此M=1。接着把ϵ替换为ϵ2,就成了 ℙ[|...|<ϵ2]≥2exp(−12ϵ2N) 。则我们可以得到引理中的不等式。
对于e−12e2N,一个比较合理的要求是e−12ϵ2N<14,譬如我们有400笔资料,想要E_in和E_out相差不超过0.1。注意到这只是一个bound,只要要求不太过分,也不能太宽松即可,适当的宽松一点是OK的。当然这里也是想跟之前所说的 “ℙ[|E_in−E_out| is large]的一个大概的上界可以是2ℙ[|E_in−E_in′| is large]” 当中的2倍有所结合。
所以就有
1−2e−12e2N>12
。带回引理,可得:
这样一来我们就把无限多种的E_out换成了有限多种的E_in,因为D与D′的大小相等,都为N,因此我们手中一共有2N笔数据,这样作用于D+D′最多能产生m_H(2N)种dichotomies。此时我们针对上面的不等式,就又可以使用union bound了。(关于union bound,可以参考上一篇VC Dimension, Part I)
前面的动作相当于先从总体中抽出2N笔数据,把这2N笔数据当成一个比较小的bin,然后在这个bin中抽取N笔作为D,剩下的N笔作为D′,D和D′之间是没有交集的。在我们想象出来的这个small bin当中,整个bin的错误率为E_in+E_out2,又因为:
所以用RHS替换LHS之后,前面不等式就又可以使用Hoeffding inequality了:
这上面千辛万苦得出来的这个bound就叫做Vapnik-Chervonenkis (VC) bound: