Foundations of Machine Learning 2nd——第三章(二)growth fuction和 VC-Dimension
前言
我们上篇文章讲了对于映射集 H H H无限的情况,可以使用拉德马赫复杂度来表示其generalization error边界,然而拉德马赫复杂度的计算十分困难,因此本节引入VC维的概念来使得这个边界可以在现实中被计算出来,在介绍VC维之前我们先介绍growth function这个先验知识(VC维的generalization bound需要以growth function作为中间媒介)。
Growth function
growth function中文名翻译成生长函数…我总感觉像生物用语。。所以还是叫英文名字吧。。
先来看看他的定义:
对于映射集
H
H
H的growth function:
Π
H
(
m
)
:
N
→
N
\Pi_{H}(m):N\rightarrow N
ΠH(m):N→N,定义如下:
∀
m
∈
N
,
Π
H
(
m
)
=
max
{
x
1
,
.
.
.
x
m
}
⊂
X
∣
{
h
(
x
1
)
,
.
.
.
,
h
(
x
m
)
:
h
∈
H
}
∣
\forall m\in N, \Pi_H(m) = \max\limits_{\{x_1,...x_m\}\subset X}|\{h(x_1),...,h(x_m):h\in H\}|
∀m∈N,ΠH(m)={x1,...xm}⊂Xmax∣{h(x1),...,h(xm):h∈H}∣
解释:我们先引入一个概念: d i c h o t o m y dichotomy dichotomy。它的定义如下:对于一个映射 h ∈ H h\in H h∈H,将 h h h作用在样本集 { x 1 , . . . , x m } \{x_1,...,x_m\} {x1,...,xm}上会产生一个分类结果(我们假设是二分类),这个结果可能是 { 0 , 1 , . . . , 1 } \{0,1,...,1\} {0,1,...,1}。我们把这样的一种分类结果称为 d i c h o t o m y dichotomy dichotomy。那么,对于一个样本集来说,将 H H H里所有的映射都作用在上面时,最多有 2 m 2^m 2m种结果,因为也许有的结果在当前的问题里肯定不会出现(后面我们会举例子),所以 d i c h o t o m y dichotomy dichotomy的个数也有可能小于 2 m 2^m 2m。那么 H H H的growth function要找的就是能产生 d i c h o t o m y dichotomy dichotomy数量最多的一个大小为 m m m样本集,他的 d i c h o t o m y dichotomy dichotomy数量即为 Π H ( m ) \Pi_H(m) ΠH(m)
所以,growth function给我们提供了另一种计算映射集 H H H的丰富度的方法。
那么如何用growth function替代拉德马赫复杂度在约束边界上的位置呢?
需要用到一个马萨特引理(Massart’s Lemma):
引理1 Massart’s Lemma
定义:令
A
⊂
R
m
A\subset R^m
A⊂Rm是一个有限集,设
r
=
m
a
x
x
∈
A
∥
x
∥
2
r=max_{x\in A}\|x\|_2
r=maxx∈A∥x∥2,下式成立:
E
σ
[
1
m
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
≤
r
2
log
∣
A
∣
m
\mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m}
σE[m1x∈Asupi=1∑mσixi]≤mr2log∣A∣
σ
i
\sigma_i
σi是独立同分布的随机变量,取值为
{
1
,
−
1
}
\{1,-1\}
{1,−1},
x
i
x_i
xi是向量
x
x
x的第i项。
证明:
需要介绍一个最大不等式定理和推论:
最大不等式定理:
令
X
1
,
.
.
.
,
X
n
X_1,...,X_n
X1,...,Xn是
n
≥
1
n\geq1
n≥1的实值随机变量,对于所有的
j
∈
[
n
]
j\in[n]
j∈[n]和
t
>
0
t>0
t>0,如果对于一些
r
>
0
r>0
r>0满足:
E
[
e
t
X
j
]
≤
e
t
2
r
2
/
2
E[e^{tX_j}]\leq e^{t^2r^2/2}
E[etXj]≤et2r2/2,那么下列不等式成立:
E
[
max
j
∈
[
n
]
X
j
]
≤
r
2
log
n
E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n}
E[j∈[n]maxXj]≤r2logn
证明:
对于任意的
t
>
0
t>0
t>0,通过指数函数的凹性和杰森不等式,下式成立:
e
t
E
[
m
a
x
j
∈
[
n
]
X
j
]
≤
E
[
e
t
max
j
∈
[
n
]
X
j
]
=
E
[
max
j
∈
[
n
]
e
t
X
j
]
≤
E
[
∑
j
∈
[
n
]
e
t
X
j
]
≤
n
e
t
2
r
2
2
e^{tE[max_{j\in[n]}X_j]}\leq E[e^{t\max_{j\in[n]}X_j}]=E[\max\limits_{j\in[n]}e^{tX_j}]\leq E[\sum\limits_{j\in[n]}e^{tX_j}]\leq ne^{\frac{t^2r^2}{2}}
etE[maxj∈[n]Xj]≤E[etmaxj∈[n]Xj]=E[j∈[n]maxetXj]≤E[j∈[n]∑etXj]≤ne2t2r2
第一步转换利用了指数函数的凹性+杰森不等式
补充杰森不等式:
若 f ( x ) f(x) f(x)是区间[a,b]上的下凹函数,对于人意的 x 1 , x 2 . . . x n ∈ [ a , b ] x_1,x_2...x_n\in[a,b] x1,x2...xn∈[a,b],有不等式:
∑ i = 1 n f ( x i ) n ≥ f ( ∑ i = 1 n x i n ) \frac{\sum_{i=1}^nf(x_i)}{n}\geq f(\frac{\sum_{i=1}^nx_i}{n}) n∑i=1nf(xi)≥f(n∑i=1nxi)
其加权形式为:
在原条件上,且 a 1 + a 2 + . . . + a n = 1 a_1+a2+...+a_n=1 a1+a2+...+an=1,且 a i a_i ai都为正数,有:
f ( ∑ i = 1 n a i x i ) ≤ ∑ i = 1 n a i f ( x i ) f(\sum_{i=1}^na_ix_i)\leq\sum_{i=1}^na_if(x_i) f(∑i=1naixi)≤∑i=1naif(xi)
最大不等式推论:
令
X
1
,
.
.
,
X
n
X_1,..,X_n
X1,..,Xn是
n
≥
1
n\geq1
n≥1的实值随机变量,对于所有的
j
∈
[
n
]
j\in[n]
j∈[n],
X
j
=
∑
i
=
1
m
Y
i
j
X_j=\sum_{i=1}^mY_{ij}
Xj=∑i=1mYij,对于每一个固定的
j
∈
[
n
]
j\in[n]
j∈[n],
Y
i
j
Y_{ij}
Yij都是独立的零均值变量,取值在
[
−
r
i
,
r
i
]
[-r_i,r_i]
[−ri,ri],对一些
r
i
>
0
r_i>0
ri>0,下列不等式成立:
E
[
max
j
∈
[
n
]
X
j
]
≤
r
2
log
n
E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n}
E[j∈[n]maxXj]≤r2logn
其中
r
=
∑
i
=
1
m
r
i
2
r=\sqrt{\sum_{i=1}^mr_i^2}
r=∑i=1mri2
证明:
由于
E
[
e
t
X
j
]
=
E
[
Π
i
=
1
m
e
t
Y
i
j
]
=
Π
i
=
1
m
E
[
e
t
Y
i
j
]
≤
Π
i
=
1
m
e
t
2
r
j
2
2
=
e
t
2
r
2
2
E[e^{tX_j}]=E[\mathop{\Pi}\limits_{i=1}^me^{tY_{ij}}]=\mathop{\Pi}\limits_{i=1}^mE[e^{tY_{ij}}]\leq \mathop{\Pi}\limits_{i=1}^m e^{\frac{t^2r_j^2}{2}}=e^{\frac{t^2r^2}{2}}
E[etXj]=E[i=1ΠmetYij]=i=1ΠmE[etYij]≤i=1Πme2t2rj2=e2t2r2
倒第二个转换用了霍夫丁引理:
令 X X X表示 E [ X ] = 0 E[X]=0 E[X]=0的随机变量,且 a ≤ X ≥ b , b > a a\leq X \geq b, b>a a≤X≥b,b>a,对于任意的 t > 0 t>0 t>0,都有:
E [ e t X ] ≤ e t 2 ( b − a ) 2 8 E[e^{tX}]\leq e^{\frac{t^2(b-a)^2}{8}} E[etX]≤e8t2(b−a)2
所以能够利用最大不等式来得到该引理。
终于把最大不等式给说完了!现在目光切回到Massart’s Lemma!
如果把Massart’s Lemma中的
σ
i
x
i
\sigma_ix_i
σixi看做一个新的变量
y
i
y_i
yi的话,很容易发现
y
i
y_i
yi取值在
[
−
x
i
,
x
i
]
[-x_i,x_i]
[−xi,xi]中,且
∑
i
=
1
m
x
i
2
≤
r
\sqrt{\sum_{i=1}^mx_i^2}\leq r
∑i=1mxi2≤r(注意,这里的r是Massart’s Lemma里定义的)。
把
∑
i
=
1
m
y
i
\sum_{i=1}^my_i
∑i=1myi看做新变量X,那么
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
=
max
x
∈
A
∑
i
=
1
m
y
i
=
max
j
∈
[
n
]
X
j
\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i=\max\limits_{x\in A}\sum_{i=1}^my_i=\max\limits_{j\in[n]}X_j
x∈Asup∑i=1mσixi=x∈Amax∑i=1myi=j∈[n]maxXj
根据最大不等式推论就能得到马萨特引理。
E
σ
[
1
m
sup
x
∈
A
∑
i
=
1
m
σ
i
x
i
]
≤
r
2
log
∣
A
∣
m
\mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m}
σE[m1x∈Asupi=1∑mσixi]≤mr2log∣A∣
OK 现在证明了马萨特引理了!该想想怎么用growth function替换拉德马赫复杂度了!
推论1
令
G
G
G表示一个函数族,输出取值为
{
−
1
,
1
}
\{-1,1\}
{−1,1},下式成立:
R
m
(
G
)
≤
2
log
Π
G
(
m
)
m
R_m(G)\leq\sqrt{\frac{2\log\Pi_G(m)}{m}}
Rm(G)≤m2logΠG(m)
证明:
对于一个固定的样本集
S
=
{
x
1
,
.
.
x
m
}
S=\{x_1,..x_m\}
S={x1,..xm},定义
G
∣
S
G_{|S}
G∣S为函数结果向量集,对于
g
∈
G
g\in G
g∈G:其结果向量为
{
g
(
x
1
)
,
.
.
,
g
(
x
m
)
}
T
\{g(x_1),..,g(x_m)\}^T
{g(x1),..,g(xm)}T。因为输出在
{
−
1
,
1
}
\{-1,1\}
{−1,1},所以结果向量的模最大为
m
\sqrt{m}
m。接下来就要用到Massart’s Lemma!!:
R
m
(
G
)
=
E
S
[
E
σ
[
sup
u
∈
G
∣
S
1
m
∑
i
=
1
m
σ
i
u
i
]
]
≤
E
S
[
m
2
log
∣
G
∣
S
∣
m
]
R_m(G)=\mathop{E}\limits_S[\mathop{E}\limits_\sigma[\sup\limits_{u\in G_{|S}}\frac{1}{m}\sum_{i=1}^m\sigma_iu_i]]\leq\mathop{E}\limits_{S}[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}]
Rm(G)=SE[σE[u∈G∣Ssupm1i=1∑mσiui]]≤SE[mm2log∣G∣S∣]
由于
∣
G
∣
S
∣
≤
Π
G
(
m
)
|G_{|S}|\leq \Pi_G(m)
∣G∣S∣≤ΠG(m):
R
m
(
G
)
≤
E
S
[
m
2
log
∣
G
∣
S
∣
m
]
=
2
log
Π
G
(
m
)
m
R_m(G)\leq\mathop{E}\limits_S[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}]=\sqrt{\frac{2\log\Pi_G(m)}{m}}
Rm(G)≤SE[mm2log∣G∣S∣]=m2logΠG(m)
注意 这个不等式里就用growth function来表示了拉德马赫复杂度的上界。下一步终于到了这一小节的第一个高潮——把约束边界里的拉德马赫复杂度换成growth function!
推理2 growth function的generalization bound
令
H
H
H表示一个函数族,输出值为
{
−
1
,
1
}
\{-1,1\}
{−1,1}。对于任意的
δ
>
0
\delta>0
δ>0,我们都有
1
−
δ
1-\delta
1−δ的把握对于任意的
h
∈
H
h\in H
h∈H,下式成立:
R
(
h
)
≤
R
^
S
(
h
)
+
2
log
Π
H
(
m
)
m
+
log
1
δ
2
m
R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2\log\Pi_H(m)}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}
R(h)≤R^S(h)+m2logΠH(m)+2mlogδ1
不过我们的growth function只能算是一个中转站,因为计算growth function需要对所有的 m ≥ 1 m\geq1 m≥1的样本集计算,下面介绍的VC维也是一种计算映射集 H H H复杂度的方法,不过更简单实用。
VC-dimension
VC-dimension(Vapnik-Chervonenkis dimension)。
介绍VC维之前先介绍一个概念:“shattering”
shattering表示:如果一个映射集
H
H
H,对一个样本集
S
S
S(
m
≥
1
m\geq1
m≥1),能够产生该样本集的所有可能的dichotomies,即
Π
H
(
m
)
=
2
m
\Pi_H(m)=2^m
ΠH(m)=2m,就称
H
H
H shattering
S
S
S。
定义1 VC-dimension
一个映射集
H
H
H的VC-dimension是
H
H
H可以shattering的最大到的样本集的大小。
V
C
d
i
m
(
H
)
=
m
a
x
m
:
Π
H
(
m
)
=
2
m
VCdim(H)=max{m:\Pi_H(m)=2^m}
VCdim(H)=maxm:ΠH(m)=2m
所以,如果
V
C
d
i
m
(
H
)
=
d
VCdim(H)=d
VCdim(H)=d,说明存在一个大小为
d
d
d的样本集,能够被
H
H
Hshatter,但是不代表所有大小为
d
d
d的样本集都能被
H
H
Hshatter。
下面举几个例子来更深入的理解VC-dimension的含义。
Example 1 实线上的区间
这个问题里的映射集就是实线上的各个区间。很明显他的VC-dimension至少是2。因为对于两个样本,他们的所有可能的dichotomy为
(
+
,
+
)
,
(
+
,
−
)
,
(
−
,
+
)
,
(
−
,
−
)
(+,+),(+,-),(-,+),(-,-)
(+,+),(+,−),(−,+),(−,−),都可以被产生。下图是可视化表示:
然鹅,没有一个大小为3的样本集能够被
H
H
Hshatter。(大家自己画画图就知道了~)
Example 2 超平面
首先考虑二维空间的超平面(其实就是一条直线),那么,任何三个非线性的点都可以被shatter。
前方高能——
上面这个图就是三个点时可能的分类结果,虽然只画了四条线,不过每一条线分割出来的两部分都可以交换他们的正负性,因此3个点有8个dichotomy,所以可以被shatter。
而四个点的时候呢?
当他们的正负性为上图所示的时候,就没有直线可以实现。因此不能被shattered。
更一般的,在
R
d
R^d
Rd中,我们考虑一个大小为
d
+
1
d+1
d+1的样本集。令
x
0
=
(
0
,
0...
,
0
)
x_0=(0,0...,0)
x0=(0,0...,0)是原点。对于
i
∈
{
1
,
.
.
.
,
d
}
i\in\{1,...,d\}
i∈{1,...,d},
x
i
x_i
xi的第
i
i
i个位置为1,其余为0。他们的标签
y
0
,
y
1
,
y
2
,
.
.
,
y
d
∈
{
−
1
,
1
}
y_0,y_1,y_2,..,y_d\in\{-1,1\}
y0,y1,y2,..,yd∈{−1,1},同时定义一个向量
w
w
w,他的第
i
i
i项是
y
i
y_i
yi。于是,超平面定义为:
w
⋅
x
+
y
0
2
=
0
w·x+\frac{y_0}{2}=0
w⋅x+2y0=0,能够shatter所有的
d
+
1
d+1
d+1个样本。
s
g
n
(
w
⋅
x
+
y
0
2
)
=
s
g
n
(
y
i
+
y
0
2
)
=
y
i
sgn(w·x+\frac{y_0}{2})=sgn(y_i+\frac{y_0}{2})=y_i
sgn(w⋅x+2y0)=sgn(yi+2y0)=yi
注意,这个公式对于 s i z e > d + 1 size>d+1 size>d+1的样本集不适用,因为 x x x的维数为 d d d
也就是说对于样本在 R d R^d Rd的空间中,超平面分类至少能够shatter 大小为 d + 1 d+1 d+1的样本。下面我们来考虑 s i z e > d + 1 size>d+1 size>d+1的情况,要先用到一个定理:
定理1 Radon’s Theorem
任何一个有 d + 2 d+2 d+2个在 R d R^d Rd的点的样本集 X X X,都可以被分成两个子集 X 1 , X 2 X_1,X_2 X1,X2,且这两个子集凸包相交。
证明:
令
X
=
{
x
1
,
.
.
.
x
d
+
2
}
⊂
R
d
X=\{x_1,...x_{d+2}\}\subset R^d
X={x1,...xd+2}⊂Rd,下面的等式组成了一个d+1个线性方程组。
∑
i
=
1
d
+
2
α
i
x
i
=
0
∑
i
=
1
d
+
2
α
i
=
0
=
=
>
α
1
x
1
,
1
+
α
2
x
21
+
.
.
.
α
d
+
2
x
d
+
2
,
1
=
0
.
.
.
α
1
x
1
,
i
+
α
2
x
2
i
+
.
.
.
α
d
+
2
x
d
+
2
,
i
=
0
.
.
.
α
1
+
.
.
.
+
α
d
+
2
=
0
\sum_{i=1}^{d+2}\alpha_ix_i=0\quad \sum_{i=1}^{d+2}\alpha_i=0\\==>\\ \alpha_1x_{1,1}+\alpha_2x_{21}+...\alpha_{d+2}x_{d+2,1} = 0\\...\\ \alpha_1x_{1,i}+\alpha_2x_{2i}+...\alpha_{d+2}x_{d+2,i} = 0\\...\\ \alpha_1+...+\alpha_{d+2} = 0
i=1∑d+2αixi=0i=1∑d+2αi=0==>α1x1,1+α2x21+...αd+2xd+2,1=0...α1x1,i+α2x2i+...αd+2xd+2,i=0...α1+...+αd+2=0
未知数(
α
i
\alpha_i
αi)有
d
+
2
d+2
d+2个,方程有
d
+
1
d+1
d+1个,因此必有非零解
β
1
,
.
.
.
β
d
+
2
\beta_1,...\beta_{d+2}
β1,...βd+2。
又因为
β
1
+
.
.
.
+
β
d
+
2
=
0
\beta_1+...+\beta_{d+2} = 0
β1+...+βd+2=0,因此
J
1
=
{
i
∈
[
d
+
2
]
:
β
i
>
0
}
,
J
2
=
{
i
∈
[
d
+
2
]
:
β
i
≤
0
}
J_1=\{i\in[d+2]:\beta_i>0\},J_2=\{i\in[d+2]:\beta_i\leq0\}
J1={i∈[d+2]:βi>0},J2={i∈[d+2]:βi≤0}都是非空集合。我们可以把样本集划分为
X
1
=
{
x
i
,
i
∈
J
1
}
X
2
=
{
x
i
,
i
∈
J
2
}
X_1=\{x_i,i\in J_1\}\quad X_2=\{x_i,i\in J_2\}
X1={xi,i∈J1}X2={xi,i∈J2}。因为
∑
i
∈
J
1
β
i
=
−
∑
i
∈
J
2
β
i
\sum\limits_{i\in J_1}\beta_i=-\sum\limits_{i\in J_2}\beta_i
i∈J1∑βi=−i∈J2∑βi,设
β
=
∑
i
∈
J
1
β
i
\beta=\sum\limits_{i\in J_1}\beta_i
β=i∈J1∑βi,根据上面的两个公式可得:
∑
i
∈
J
1
β
i
β
x
i
=
∑
i
∈
J
2
−
β
i
β
x
i
\sum\limits_{i\in J_1}\frac{\beta_i}{\beta}x_i=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}x_i
i∈J1∑ββixi=i∈J2∑−ββixi
因为
∑
i
∈
J
1
β
i
β
=
∑
i
∈
J
2
−
β
i
β
=
1
\sum\limits_{i\in J_1}\frac{\beta_i}{\beta}=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}=1
i∈J1∑ββi=i∈J2∑−ββi=1,且
i
∈
J
1
时
β
i
β
>
0
i\in J_1 时 \frac{\beta_i}{\beta}>0
i∈J1时ββi>0,
i
∈
J
2
时
−
β
i
β
>
0
i\in J_2 时 -\frac{\beta_i}{\beta}>0
i∈J2时−ββi>0,所以
∑
i
∈
J
1
β
i
β
x
i
\sum_{i\in J_1}\frac{\beta_i}{\beta}x_i
∑i∈J1ββixi同时属于
X
1
,
X
2
X_1,X_2
X1,X2的凸包。
所以不存在超平面能够区分
X
1
X_1
X1和
X
2
X_2
X2。而任意大小为
d
+
2
d+2
d+2的,样本点在
R
d
R^d
Rd的样本集,都可以分出来一组这样的两个子集(凸包相交),所超平面
H
H
H不能shatter大小为
d
+
2
d+2
d+2的样本集。所以VCdim(hyperplane in R^d)=
d
+
1
d+1
d+1
Example 3 平行坐标轴的矩形
四个样本点的很容易被证明可以被shatter。下图(a)展示了部分情况,其余的自己画画就能找出来~下图(b)说明了五个样本点的时候肯定不能被shatter。
还有很多,就不一一列举了~
定理2 Sauer’s Lemma
令
H
H
H表示一个
V
C
d
i
m
(
H
)
=
d
VCdim(H)=d
VCdim(H)=d的映射集。对于所有的
m
∈
N
m\in N
m∈N,下列不等式成立:
Π
H
(
m
)
≤
∑
i
=
0
d
C
m
d
\Pi_H(m)\leq \sum_{i=0}^dC_m^d
ΠH(m)≤i=0∑dCmd
证明:
首先说明,这个推理用了归纳演绎的方法。显然,
m
=
1
m=1
m=1时,
d
=
0
或
者
d
=
1
d=0 或者d=1
d=0或者d=1都是符合定理的。假设对于
(
m
−
1
,
d
−
1
)
和
(
m
−
1
,
d
)
(m-1,d-1)和(m-1,d)
(m−1,d−1)和(m−1,d)都成立。
固定一个样本集
S
=
{
x
1
,
.
.
,
x
m
}
S=\{x_1,..,x_m\}
S={x1,..,xm},有
Π
H
(
m
)
\Pi_H(m)
ΠH(m)个dichotomy,令
G
=
H
∣
S
G=H_{|S}
G=H∣S表示被
S
S
S约束的一个映射集合。
考虑
S
′
=
{
x
1
,
.
.
.
x
m
−
1
}
S^{'}=\{x_1,...x_{m-1}\}
S′={x1,...xm−1},定义
G
1
=
G
∣
S
′
G_1=G_{|S^{'}}
G1=G∣S′表示被
S
′
S^{'}
S′约束的一个映射集合。如果我们把每一个映射当成是一个非零点集(第
i
i
i个点表示x_i为0/1),可以定义
G
2
G_2
G2如下:
G
2
=
{
g
′
⊂
S
′
:
(
g
′
∈
G
)
∧
(
g
′
∪
{
x
m
}
∈
G
)
}
G_2=\{g^{'}\subset S^{'}:(g^{'}\in G)\land (g^{'}\cup\{x_m\}\in G)\}
G2={g′⊂S′:(g′∈G)∧(g′∪{xm}∈G)}
G
1
,
G
2
G_1,G_2
G1,G2的可视化如下:
(这个
G
1
,
G
2
G_1,G_2
G1,G2解释的太抽象了,这图咱也没咋看懂,我个人理解是:
G
1
G_1
G1表示的就是不考虑
x
m
x_m
xm的所有dichotomy,
G
2
G_2
G2表示的是对于
S
S
S来说的所有dichotomy里,
x
m
=
0
、
x
m
=
1
x_m=0、x_m=1
xm=0、xm=1两种情况都有的前
m
−
1
m-1
m−1个样本对应的dichotomy。。比如上图里第一行和第二行,除了
x
m
x_m
xm取值不同,其余的取值都相同,
G
1
G_1
G1表示的dichotomies里满足这种要求的dichotomies构成
G
2
G_2
G2)
所以 ∣ G 1 ∣ + ∣ G 2 ∣ = ∣ G ∣ |G_1|+|G_2|=|G| ∣G1∣+∣G2∣=∣G∣
由于
V
C
d
i
m
(
G
1
)
≤
V
C
d
i
m
(
G
)
≤
d
VCdim(G_1)\leq VCdim(G)\leq d
VCdim(G1)≤VCdim(G)≤d,根据我们前面的假设可以得到:
∣
G
1
∣
≤
Π
G
1
(
m
−
1
)
≤
∑
i
=
0
d
C
m
−
1
i
|G_1|\leq \Pi_{G_1}(m-1)\leq\sum_{i=0}^dC_{m-1}^i
∣G1∣≤ΠG1(m−1)≤i=0∑dCm−1i
根据
G
2
G_2
G2的定义,如果
Z
⊂
S
′
Z\subset S^{'}
Z⊂S′可以被
G
2
G_2
G2shatter,那么
Z
∪
x
m
Z\cup{x_m}
Z∪xm一定可以被
G
G
Gshatter。所以:
V
C
d
i
m
(
G
2
)
≤
V
C
d
i
m
(
G
)
−
1
≤
d
−
1
VCdim(G_2)\leq VCdim(G)-1\leq d-1
VCdim(G2)≤VCdim(G)−1≤d−1
所以
∣
G
2
∣
≤
Π
G
2
(
m
−
1
)
≤
∑
i
=
0
d
−
1
C
m
−
1
i
|G_2|\leq\Pi_{G_2}(m-1)\leq\sum_{i=0}^{d-1}C_{m-1}^{i}
∣G2∣≤ΠG2(m−1)≤i=0∑d−1Cm−1i
所以
∣
G
∣
=
∣
G
1
∣
+
∣
G
2
∣
≤
∑
i
=
0
d
C
m
−
1
i
+
∑
i
=
0
d
−
1
C
m
=
1
i
=
∑
i
=
0
d
C
m
−
1
i
+
C
m
−
1
i
−
1
=
∑
i
=
0
d
C
m
i
|G| = |G_1|+|G_2| \leq \sum_{i=0}^dC_{m-1}^i+\sum_{i=0}^{d-1}C_{m=1}^i=\sum_{i=0}^dC_{m-1}^i+C_{m-1}^{i-1}=\sum_{i=0}^dC_m^i
∣G∣=∣G1∣+∣G2∣≤i=0∑dCm−1i+i=0∑d−1Cm=1i=i=0∑dCm−1i+Cm−1i−1=i=0∑dCmi
(最后一步自己把
C
m
−
1
i
−
1
+
C
m
−
1
i
C_{m-1}^{i-1}+C_{m-1}^i
Cm−1i−1+Cm−1i展开一下就能得到~)
至此,定理得证。
这个定理有啥用呢,看接下来的一个推论
推理1
令
H
H
H表示一个映射集,
V
C
d
i
m
(
H
)
=
d
VCdim(H)=d
VCdim(H)=d,对于所有的
m
≥
d
m\geq d
m≥d:
Π
H
(
m
)
≤
(
e
m
d
)
d
=
O
(
m
d
)
\Pi_H(m)\leq(\frac{em}{d})^d=O(m^d)
ΠH(m)≤(dem)d=O(md)
证明:(用到了上一个推理)
Π
H
(
m
)
≤
∑
i
=
0
d
C
m
i
≤
∑
i
=
0
d
C
m
i
(
m
d
)
d
−
i
≤
∑
i
=
0
m
C
m
i
(
m
d
)
d
−
i
=
(
m
d
)
d
∑
i
=
0
m
C
m
i
(
d
m
)
i
=
(
m
d
)
d
(
1
+
d
m
)
m
≤
(
m
d
)
d
e
d
\Pi_H(m)\leq\sum_{i=0}^dC_m^i\leq\sum_{i=0}^dC_m^i(\frac{m}{d})^{d-i}\leq\sum_{i=0}^mC_m^i(\frac{m}{d})^{d-i}=(\frac{m}{d})^d\sum_{i=0}^mC_m^i(\frac{d}{m})^i=(\frac{m}{d})^d(1+\frac{d}{m})^m\leq(\frac{m}{d})^de^d
ΠH(m)≤i=0∑dCmi≤i=0∑dCmi(dm)d−i≤i=0∑mCmi(dm)d−i=(dm)di=0∑mCmi(md)i=(dm)d(1+md)m≤(dm)ded
本小节的第二个高潮要来了~在generalization bound中用VCdim替换growth function!!
推理2 VC-dimension generalization bounds
令
H
H
H表示一个映射族,取值在
{
−
1
,
1
}
\{-1,1\}
{−1,1},
V
C
d
i
m
=
d
VCdim=d
VCdim=d。对于任一
δ
>
0
\delta > 0
δ>0,都有
1
−
δ
1-\delta
1−δ的把握,令下式对于所有的
h
∈
H
h\in H
h∈H成立:
R
(
h
)
≤
R
^
S
(
h
)
+
2
d
log
e
m
d
m
+
log
1
δ
2
m
R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2d\log\frac{em}{d}}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}
R(h)≤R^S(h)+m2dlogdem+2mlogδ1
注意,这里右边的第二项把growth function generalization bounds里面的
log
Π
G
(
m
)
\log\Pi_G(m)
logΠG(m)利用上面的推理1换成了
d
log
e
m
d
d\log\frac{em}{d}
dlogdem
一般化的写法就是:
R
(
h
)
≤
R
^
S
(
h
)
+
O
(
log
(
m
/
d
)
m
/
d
)
R(h)\leq\hat{R}_S(h)+O(\sqrt{\frac{\log(m/d)}{m/d}})
R(h)≤R^S(h)+O(m/dlog(m/d))
这个边界可以用在实际估计中了~(只需要知道
d
d
d就行)