VC维

原创 2016年06月02日 12:32:53

为什么引入VC维
PAC中以|H |来刻画样本复杂度,它存在以下不足:可能导致非常弱的边界;对于无限假设空间的情形, 1/b*(log2(|H|)+log2(1/d))((2)式)根本无法使用。因此有必要引入另一度量标准VC 维。假设空间的VC 维, 用VCdim(H)表示, 被定义为最大的样本数d ,使得在所有可能的2 d 种二分(dichotomy)中,都能找到与该划分一致的一个假设。VC 维较准确地描述了PAC 学习所需的样本的长度。若C H ,则C 的一致
算法需要的样本数最多为:
法需要的样本数最多为[ 5] :
1/2(1 - ε)*(2VCdim(H)ln1/εln2/δ) (3)
如假设空间是在布尔域内, 则(2)给出了较好的界;但若是在实数域内, 因此时Hn = ∞, 则只能用(3)式, 对于针对某一具体表示(如神经网络)或当训练数据有噪声时, 如何求其样本复杂度, 。若L 是一致算法, 且VCdim(H)是有限的, 则算法L 是PAC学习的;反过来, 若L 是PAC学习的, 则概念类C 必有有限的VC维。

分散的概念
分散(shatter)的概念:对于一个给定集合S={x1, … ,xd},如果一个假设类H能够实现集合S中所有元素的任意一种标记方式,则称H能够分散S。

VC维的定义:
H的VC维表示为VC(H) ,指能够被H分散的最大集合的大小。若H能分散任意大小的集合,那么VC(H)为无穷大。在《神经网络原理》中有另一种记号:对于二分总体F,其VC维写作VCdim(F)。

二维线性分类器举例说明为什么其VC维是3,而不能分散4个样本的集合,这里也就是容易产生困惑的地方。下面进行解释
  对于三个样本点的情况,下面的S1所有的标记方式是可以使用线性分类器进行分类的,因此其VC维至少为3
 这里写图片描述
 虽然存在下面这种情况的S2,其中一种标记方式无法用线性分类器分类
 这里写图片描述
 但这种情况并不影响,这是因为,上一种的S1中,我们的H={二维线性分类器}可以实现其所有可能标签情况的分类,这和S2不能用H分散无关。

而对于4个样本点的情况,我们的H不能实现其所有可能标签情况的分类(这是经过证明的,过程不详)如下图中某个S和其中一种标签分配情况:

这里写图片描述
从这个解释过程可以看出,对于VC维定义理解的前提是先理解分散的定义。分散中的集合S是事先选定的,而VC维是能分散集合中基数(即这里的样本数)最大的。因此,当VC(H)=3时,也可能存在S’,|S’|=3但不能被H分散;而对于任意事先给定的S”,|S”|=4,H不能对其所有可能的标签分配方式进行分散。这里所谓“事先给定”可以看作其点在平面上位置已定,但所属类别未定(即可能是任意一种标签分配)。

抛出了一个结论:Dvc = d+1, d为feature vector的维度。
要证明这个等式,可以将它分为两块证明,
1 证明 Dvc >= d+1;
2 证明 Dvc <= d+1;
(此处不再具体证明)
这里写图片描述
这个图说了:
1 Dvc越高 -> Ein下降(shatter能力变强)-> model complexity的penalty提高,导致Eout先降后升
2 Dvc越低 -> Ein升高 -> model complexity的penalty降低,Eout最终也是会上升
所以最好情况的Eout是我们选取Dvc在中间的情况,这样Ein和penalty都不高,即最终的Eout也不会太高。这也就是为什么,我们不能够盲目增加feature也不能有太少feature的原因。

求二维上圆(3)和三角形(7)的VC维,需要给出说明。
———以下来自mythly(主要)和ejade(次要)的讨论结论——-
一维,实数轴上的点,用区间分,VC=2

二维,平面上的点
用直线/圆(强于直线,直径无穷大时可看成直线)VC=3(维数+1)

直线易证,圆3时易证 4时对任意四个点找最小的外接圆,然后要圆上的至多三个点在圆内,其余点在圆外,矛盾。

用矩形/正方形 VC=4(维数*2)

4时易证,5时取最上最左最右最下的点在里面,剩下一个点在外面。

凸多边形 VC=维数*边数+1

对三角形简要证明思路。
证存在7可以时,举个正七边形,0个在里面1个在里面2个在里面3个在里面(以那三个为顶点画)都显然。剩下4567在里面,相当于任意0123在外面,比如3个在外面,三角形一条边割一个出去即可。
证任何8不可以时,首先考察任意8个点的凸包(凸包概念请自学),如果有点在凸包内,那么要凸包上的点在里面,凸包里的点在外面,这显然是不可能的。
否则就是8个点都在凸包上。取不相邻的4个在里面。另外不相邻的4个就要在外面,由于在外面至少要在三角形一条边的外面,根据鸽笼原理,至少有两个点在同一边的外面。这样势必那两点间的应该在里面的点也会被切出去,矛盾了。。。

意思大致看看就行了嘛~格式很渣的>.<
所以凸45678变形都可以用上述证法以此类推
三维,根据推论
平面/球 4(维数+1)
超立方体(正方体,长方体)VC=6(维数*2)
证略

All the decision trees can be represented by Boolean functions Vc(H)=∞

版权声明:本文为博主原创文章,未经博主允许不得转载。

VC维理论

支持向量机是建立在统计学中的结构风险最小化和VC维理论基础之上的 结构风险最小化 = 经验风险 + 置信风险 经验风险  = 分类器在给定样本上的误差 置信风险  = 分类器在非指定...
  • shenxiaoming77
  • shenxiaoming77
  • 2016年07月11日 15:41
  • 2371

vc维的解释

在做svm的时候我们碰到了结构风险最小化的问题,结构风险等于经验风险+vc置信范围,其中的vc置信范围又跟样本的数量和模型的vc维有关,所以我们看一下什么是vc维 首先看一下vc维的定义:对一个指标...
  • nwpuwyk
  • nwpuwyk
  • 2014年11月20日 14:01
  • 1680

详解机器学习中的VC维

机器学习中的经典算法SVM(支持向量机)最初是由前苏联数学家Vladimir Vapnik 和 Alexey Chervonenkis 在 1963年提出的。二人合作完成的另外一个之于机器学习的重要贡...
  • baimafujinji
  • baimafujinji
  • 2015年04月03日 16:10
  • 6231

VC 维度(七)

这一章节非常重要,也是有点难度的 上节课我们知道,我们得到的一个结论是: 我们的假设函数的成长函数,它的break point 是K,那么成长函数是小于边界函数B(N,k)的,边界函数是,边界函数的最...
  • ML_algorithmResearch
  • ML_algorithmResearch
  • 2015年12月25日 15:43
  • 1344

NTU-Coursera机器学习:VC Bound和VC维度

这一讲开篇再介绍一个界函数(bounding function)的概念.它提供了一个对机器学习结果可靠性的衡量,因为成长函数是N的多项式,所以BAD事件发生的概率随着N的增大而显著下降。需要强调的是,...
  • utimes
  • utimes
  • 2015年02月22日 15:51
  • 5461

VC维(VC dimension)

参考文献:learning from data——Yaser S. Abu-Monstafa/ Malik Magdon-Ismail / Hsuan-Tien Lin
  • lucylove3943
  • lucylove3943
  • 2015年08月05日 18:52
  • 2967

VC维

为什么引入VC维 PAC中以|H |来刻画样本复杂度,它存在以下不足:可能导致非常弱的边界;对于无限假设空间的情形, 1/b*(log2(|H|)+log2(1/d))((2)式)根本无法使用。因此...
  • TH_NUM
  • TH_NUM
  • 2016年06月02日 12:32
  • 2340

机器学习和数据挖掘(7):VC维

VC维回顾与说明如果一个假设空间存在突破点,则一定存在成长函数mH(N)m_{\mathcal H}(N)被某个上限函数B(N,k)B(N,k)所约束,而上限函数等于一个组合的求和形式∑k−1i=0C...
  • u013007900
  • u013007900
  • 2017年07月24日 11:49
  • 712

VC维度

Vc维度是针对某个分类器而言。Vc维度与分类器的复杂度有关。在学习分析时候,把分类器看做是来自于某类分类器集合,从而进行误差分析。直观来讲,分类器的复杂度正比于它所在的集合的元素个数,而元素个数与参数...
  • houlaizhexq
  • houlaizhexq
  • 2014年04月04日 20:48
  • 553

VC维

    为了研究函数集在经验风险最小化原则下的学习一致性问题和一致性收敛的速度,统计学习理论定义了一系列有关函数集学习性能的指标,它们包括:随机熵、VC熵、退火的VC熵、生长函数、VC维等。尽管随机熵...
  • carson2005
  • carson2005
  • 2011年05月29日 15:36
  • 9314
内容举报
返回顶部
收藏助手
不良信息举报
您举报文章:VC维
举报原因:
原因补充:

(最多只允许输入30个字)