7.1 Definition of VC Dimension
本节给之前的break point一个正式的名字。设假设集H的break point为
k
,则VC Dimension为
k−1
,即
dvc=k−1
。它代表的意义在于,
mH(N)≤Ndvc
,即在
mH(N)
难以得到的情况下,我们用
Ndvc
来设置其上界,这意味着如果有
N
个以上的样本,
H
一定不能做出shatter,然而,当样本数不大于
N
时,
H
也有可能不能shatter。
当
dvc
有限时,可以认为
Eout≈Ein
,即存在泛化能力,并且与以下因素无关:
(1)与从
H
获取模型的演算法无关
(2)与输入数据的分布无关
(3)与目标函数
f
无关
7.2 VC Dimension of Perceptrons
7.2.1 感知机的学习过程
首先在线性可分的数据集中,经过一个演算法使得
Ein=0
,然后在假定所有数据同分布、VC维有限的情况下,
P[|Ein(g)−Eout(g)|>ϵ]
会小于一个上限,意味着在足够多的数据下
Eout≈Ein
,由
Eout≈0
。
7.2.2 感知机的VC维
证明n维感知机的VC维是
n+1
:
(1)
n
维感知机能shatter某一
d+1
维数据
n
维感知机的权重向量
w
是
n+1
维的。同时设某
d+1
维数据的矩阵表示是可逆的,则存在
Xw=y
,即
w=X−1y
,可知存在
w
使得
X
能按任意
y
划分。
(2)
n
维感知机不能shatter某一
d+2
维数据
由于
xn+2=x1+⋯+xn+1
因此
wTxn+2=wTx1+⋯+wTxn+1
,可知当
y1,…,yn+1
给定时,
yn+2
被锁定,故无法shatter。
7.3 Physical Intuition of VC Dimension
VC维在物理上大致但不总是代表着 H 的自由度,即能自由决定的变量个数。自由度越高,意味着H能shatter更多的样本,故代表着H的强度,同时在高自由度下却很难使得 Eout≈Ein 。
7.4 Interpreting VC Dimension
用
dvc
将原有的6.4节的公式替换,我们可以得出
Eout
的上界,公式如下:
我们令该公式带根号的后半部分为 Ω ,可以看到,当 dvc 上升时, Ein(g) 下降,但是 Ω 上升,反之亦然。也就是说,当VC维上升时,训练集误差下降,测试集误差先下降后上升。
另外,在代入VC维后我们得到公式:
根据此公式在已知其他变量的情况下可以求出未知的变量。据此,我们可以得出理论上在训练算法时应使用10000倍于VC维的数据量,但实际上由于该公式经过了多次严格约束,故而只需要10倍于VC维的数据量即可。