动机
从组合的方式,计算学习模型的表达能力。表达能力越强的模型越复杂。
例1:一个分割点
如图1所示,输入空间为实数轴。假设学习模型为一个分割点(一维上的分割超平面),将负类(三角形)与正类(圆形)分开。
计算增长函数:
对于m个数据而言,分割点 d d d有 m + 1 m + 1 m+1个位置可选(两邻两个数据之间只能算一个位置)。
- 分割点 d d d左/右可以是正/负,也可以是负/正,因此有 2 ( m + 1 ) 2(m+1) 2(m+1)种分类方式
- d d d在最左边和最右边,均表示所有的样本预测为同一类,因此有2种重复的分类方式。
- 不同的分类方式有
2
(
m
+
1
)
−
2
=
2
m
2(m+1) - 2 = 2m
2(m+1)−2=2m种。
计算VC维:
当 m = 1 m = 1 m=1时, 2 m = 2 m 2m = 2^m 2m=2m, OK;
当 m = 2 m = 2 m=2时, 2 ∗ 2 = 4 = 2 2 2*2 = 4 = 2^2 2∗2=4=22, OK;
当 m = 3 m = 3 m=3时, 2 ∗ 3 = 6 < 8 = 2 3 2 * 3 = 6 < 8 = 2^3 2∗3=6<8=23, 不满足等式,结束。
因此VC维=2.
例2:两个分割点
如图2所示,
计算增长函数:
对于m个数据而言,分割点 l l l, r r r有 m + 1 m + 1 m+1个位置可选(相邻两个数据之间只能算一个位置)。
- 不允许 l l l和 r r r在一起,共有 C ( m + 1 , 2 ) = ( m + 1 ) m / 2 C(m+1, 2) = (m+1)m/2 C(m+1,2)=(m+1)m/2种方式;
- 区间 [ l , r ] [l, r] [l,r]可以表示负(其余为正),也可以表示正(其余为负),要乘以2. 所以有 ( m + 1 ) m (m+1)m (m+1)m种方式;
- [ 1 , k ] [1, k] [1,k]和 [ k , m + 1 ] [k, m+1] [k,m+1]是等价的 k ∈ [ 2.. m ] k \in [2..m] k∈[2..m],因此重复计算的方式数为 2 ( m − 1 ) 2(m-1) 2(m−1)。
- 最终的方式数
(
m
+
1
)
m
−
2
(
m
−
1
)
=
m
2
−
m
+
2
(m+1)m - 2(m-1) = m^2-m+2
(m+1)m−2(m−1)=m2−m+2种。
计算VC维:
当 m = 1 m = 1 m=1时, m 2 − m + 2 = 2 = 2 m m^2-m+2 = 2 = 2^m m2−m+2=2=2m, OK;
当 m = 2 m = 2 m=2时, m 2 − m + 2 = 4 = 2 2 m^2-m+2 = 4 = 2^2 m2−m+2=4=22, OK;
当 m = 3 m = 3 m=3时, m 2 − m + 2 = 8 = 2 3 m^2-m+2= 8 = 2^3 m2−m+2=8=23, OK;
当 m = 4 m = 4 m=4时, m 2 − m + 2 = 14 < 2 4 m^2-m+2=14 < 2^4 m2−m+2=14<24, 不满足等式,结束。
因此VC维=3.
讨论:
- m = 1 m=1 m=1时居然成立;
- 这两个例子的VC维可以通过观察得到,因此,本贴仅仅是作为一种简单练习而存在。
参考文献
[1]: Foundations of Machine Learning.