【ML】VC dimension

最新推荐文章于 2022-12-27 21:16:49 发布

风景不在对岸wj

最新推荐文章于 2022-12-27 21:16:49 发布

阅读量1.2k

点赞数

分类专栏：机器学习文章标签： Vapnik-Chervonenkis

机器学习专栏收录该内容

33 篇文章 2 订阅

订阅专栏

VC维（Vapnik-Chervonenkis Dimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学习理论定义的有关函数集学习性能的一个重要指标。

传统的定义是：对一个指标函数集，如果存在H 个样本能够被函数集中的函数按所有可能的2的K次方种形式分开，则称函数集能够把H个样本打散；函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它们打散，则函数集的VC维是无穷大，有界实函数的VC维可以通过用一定的阀值将它转化成指示函数来定义。

VC维反映了函数集的学习能力，VC维越大则学习机器越复杂（容量越大），遗憾的是，目前尚没有通用的关于任意函数集VC维计算的理论，只对一些特殊的函数集知道其VC维。例如在N维空间中线形分类器和线形实函数的VC维是n+1。

========================================================================

“支持向量机方法是建立在统计学习理论的VC 维理论和结构风险最小原理基础上”

结构化风险

结构化风险 = 经验风险 + 置信风险

经验风险 = 分类器在给定样本上的误差

置信风险 = 分类器在未知文本上分类的结果的误差

置信风险因素：

样本数量，给定的样本数量越大，学习结果越有可能正确，此时置信风险越小；
分类函数的VC维，显然VC维越大，推广能力越差，置信风险会变大。

提高样本数量，降低VC维，降低置信风险。

机器学习导论的解释 ：假定我们有一个数据集，包含Ｎ个点。这Ｎ个点可以用种方法标记为正例和负例（属于和不属于某个类）。因此，Ｎ个数据点可以定义种不同的学习问题。假如（，）逗号前的是属于，逗号都的是不属于。比如1个点，可以分为（ a , ）( , a )；2个点可以分为（ ab , ）( , ab ) ( a , b ) ( b , a )四种；依次类推...如果对于这些问题中的任何一个，我们都能够找到一个假设ｈ∈ 将正例和负例分开，那么我们就称散列（shatter ）Ｎ个点。也就是说，可以用Ｎ个点定义的任何的学习问题都能够用一个从中抽取的假设无误差地学习。可以被散列的点的最大数量称为的VC 维（Vapnik 和Cortes ），记为ＶＣ（），它度量假设类的学习能力（capactiy ）。

=================================================================

故有这样的结论，平面内只能找到3个点能被直线打散而不找到第4个。

对于这个结论我是如下理解的：

（1）平面内只能找到3个点能被直线打散：直线只能把一堆点分成两堆，对于3个点，要分成两堆加上顺序就有2³种。其中A、B、C表示3个点，+1，-1表示堆的类别， {A→-1,BC→+1}表示A分在标号为-1的那堆，B和C分在标号为+1的那堆。这就是一种分发。以此类推。则有如下8种分法：

{A→-1,BC→+1}，{A→+1,BC→-1}

{B→-1,AC→+1}，{B→+1,BC→-1}

{C→-1,AB→+1}，{C→+1,BC→-1}

{ABC→-1}，{ABC→+1}

（2）找不到4个点。假设有，则应该有2⁴=16分法，但是把四个点分成两堆有：一堆一个点另一对三个点（1，3）；两两均分（2，2）；一堆四个另一堆没有（0，4）三种情况。对于第一种情况，4个点可分别做一次一个一堆的，加上顺序就有8种：

{A→-1,BCD→+1}，{A→+1,BCD→-1}

{B→-1,ACD→+1}，{B→+1,ACD→-1}

{C→-1,ABD→+1}，{C→+1,ABD→-1}

{D→-1,ABC→+1}，{D→+1,ABC→-1}；

对于第二种情况有4种：

{AB→-1,CD→+1}，{AB→+1,CD→-1}

{AC→-1,BD→+1}，{AC→+1,BD→-1}

没有一条直线能使AD在一堆，BC在一堆，因为A、D处在对角线位置，B、C处在对角线位置。（这是我直观在图上找出来的）

对于第三种情况有2种；

{ABCD→-1}

{ABCD→+1}

所以总共加起来只有8+4+2=14种分法，不满足2⁴=16分法，所以平面找不到4个点能被直线打散。

================================================================

vc维的本质和结构风险最小化

http://hi.baidu.com/jipyjyxfkubhtxq/item/a04bc83f71f33f9cb90c03f9

VC维在有限的训练样本情况下，当样本数 n 固定时，此时学习机器的 VC 维越高学习机器的复杂性越高。VC 维反映了函数集的学习能力，VC 维越大则学习机器越复杂(容量越大)。

所谓的结构风险最小化就是在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制。

推广的界（经验风险和实际风险之间的关系，注意引入这个原因是什么？因为训练误差再小也就是在这个训练集合上，实际的推广能力不行就会引起过拟合问题还。所以说要引入置信范围也就是经验误差和实际期望误差之间的关系）：期望误差R(ω) ≤ Remp (ω)+ Φ（n/h）注意Remp (ω)是经验误差也就是训练误差（线性中使得所有的都训练正确），Φ（n/h）是置信范围，它是和样本数和VC维有关的。上式中置信范围Φ 随n/h增加，单调下降。即当n/h较小时，置信范围Φ 较大，用经验风险近似实际风险就存在较大的误差，因此，用采用经验风险最小化准则，取得的最优解可能具有较差的推广性；如果样本数较多，n/h较大，则置信范围就会很小，采用经验风险最小化准则，求得的最优解就接近实际的最优解。可知：影响期望风险上界的因子有两个方面：首先是训练集的规模 n，其次是 VC 维 h。可见，在保证分类精度（经验风险）的同时，降低学习机器的 VC 维，可以使学习机器在整个样本集上的期望风险得到控制，这就是结构风险最小化（Structure Risk Minimization，简称 SRM）的由来。在有限的训练样本情况下，当样本数 n 固定时，此时学习机器的 VC 维越高(学习机器的复杂性越高)，则置信范围就越大，此时，真实风险与经验风险之间的差别就越大，这就是为什么会出现过学习现象的原因。机器学习过程不但要使经验风险最小，还要使其 VC 维尽量小，以缩小置信范围，才能取得较小的实际风险，即对未来样本有较好的推广性，它与学习机器的 VC 维及训练样本数有关。

线性可分的问题就是满足最优分类面的面要求分类面不但能将两类样本正确分开（训练错误率为 0），而且要使两类的分类间隔最大（这个是怎么回事呢？原来是有根据的，这个让俺郁闷了好久呢。在 @ 间隔下，超平面集合的 VC 维 h 满足下面关系：

h = f （1/@*@）

其中， f().是单调增函数，即 h 与@的平方成反比关系。因此，当训练样本给定时，分类间隔越大，则对应的分类超平面集合的 VC 维就越小。）。根据结构风险最小化原则，前者是保证经验风险（经验风险和期望风险依赖于学习机器函数族的选择）最小，而后者使分类间隔最大，导致 VC 维最小，实际上就是使推广性的界中的置信范围最小，从而达到使真实风险最小。注意：置信范围大说明真实风险和经验风险的差别较大。

解释到这里了，终于有点眉目了，哦原来就是这么回事啊，真是的。总结一下就是训练样本在线性可分的情况下，全部样本能被正确地分类（咦这个不就是传说中的 yi*(w*xi+b)）>=1的条件吗），即经验风险Remp 为 0 的前提下，通过对分类间隔最大化（咦，这个就是Φ（w）＝(1/2)*w*w嘛），使分类器获得最好的推广性能。

那么解释完线性可分了，我们知道其实很多时候是线性不可分的啊，那么有什么区别没有啊？废话区别当然会有啦，嘿嘿那么什么是本质的区别啊？本质的区别就是不知道是否线性可分但是允许有错分的样本存在（这个咋回事还是没明白hoho）但是正是由于允许存在错分样本，此时的软间隔分类超平面表示在剔除那些错分样本后最大分类间隔的超平面。这里就出现了新词松驰因子，干吗用滴？就是用来控制错分样本的啊。这样的话经验风险就要跟松驰因子联系在一起了。而C就是松驰因子前面的系数，C>0 是一个自定义的惩罚因子，它控制对错分样本惩罚的程度，用来控制样本偏差与机器推广能力之间的折衷。c越小，惩罚越小，那么训练误差就越大，使得结构风险也变大，而C 越大呢，惩罚就越大，对错分样本的约束程度就越大，但是这样会使得第二项置信范围的权重变大那么分类间隔的权重就相对变小了，系统的泛化能力就变差了。所以选择合适的C还是很有必要的。

选择核函数。

核函数有很多种，如线性核、多项式核、Sigmoid 核和 RBF（Radial Basis function）核。本文选定 RBF 核为 SVM 的核函数（RBF 核K(x, y) = exp(－γ || x －y ||的平方),γ > 0）。因为RBF 核可以将样本映射到一个更高维的空间，可以处理当类标签（Class Labels）和特征之间的关系是非线性时的样例。Keerthi 等[25]证明了一个有惩罚参数C 的线性核同有参数(C,γ )（其中C 为惩罚因子，γ 为核参数）的 RBF 核具有相同的性能。对某些参数，Sigmoid核同 RBF 核具有相似的性能[26]。另外，RBF 核与多项式核相比具有参数少的优点。因为参数的个数直接影响到模型选择的复杂性。非常重要的一点是0< Kij ≤1与多项式核相反，核值可能趋向无限(γxi xj + r >1)或者0 < γxi xj + r <1，跨度非常大。而且，必须注意的是Sigmoid 核在某些参数下是不正确的（例如，没有两个向量的内积）。

(4)用交叉验证找到最好的参数 C 和γ 。使用 RBF 核时，要考虑两个参数 C 和γ 。因为参数的选择并没有一定的先验知识，必须做某种类型的模型选择（参数搜索）。目的是确定好的(C,γ)使得分类器能正确的预测未知数据（即测试集数据），有较高的分类精确率。值得注意的是得到高的训练正确率即是分类器预测类标签已知的训练数据的正确率）不能保证在测试集上具有高的预测精度。因此，通常采用交叉验证方法提高预测精度。k 折交叉验证（k-fold cross validation）

是将训练集合分成 k 个大小相同的子集。其中一个子集用于测试，其它 k-1 个子集用于对分类器进行训练。这样，整个训练集中的每一个子集被预测一次，交叉验证的正确率是 k次正确分类数据百分比的平均值。它可以防止过拟合的问题。

=============================================================================

http://www.caogenit.com/caogenxueyuan/yingyongfangxiang/rengongzhineng/1194.html

http://blog.csdn.net/marising/article/details/5888531

http://liujian.jigsy.com/entries/blog/vc%E7%BB%B4-vapnik-chervonekis-theorem

原文地址：http://www.cnblogs.com/549294286/archive/2013/03/08/2949798.html

风景不在对岸wj

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【ML】VC dimension

VC维（Vapnik-Chervonenkis Dimension）的概念是为了研究学习过程一致收敛的速度和推广性，由统计学习理论定义的有关函数集学习性能的一个重要指标。传统的定义是：对一个指标函数集，如果存在H 个样本能够被函数集中的函数按所有可能的2的K次方种形式分开，则称函数集能够把H个样本打散；函数集的VC维就是它能打散的最大样本数目H。若对任意数目的样本都有函数能将它们打散，则
复制链接

扫一扫