林轩田之机器学习课程笔记（why can machines learn之the VC dimension）（32之7）

最新推荐文章于 2019-02-18 11:08:58 发布

原创最新推荐文章于 2019-02-18 11:08:58 发布 · 794 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #林轩田 #VC维

机器学习笔记同时被 2 个专栏收录

74 篇文章

订阅专栏

算法笔记

7 篇文章

订阅专栏

本文探讨了VC维的概念及其在机器学习中的作用，详细解释了VC维的定义、物理直觉及其与假设空间的关系，并以PLA为例证明了VC维的具体计算方法。

概要
VC维的定义
PLA的VC维
VC维的物理直觉
VC维的解释

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

概要

上节讲到了一般化理论，当假设空间中存在断点，资料够多的时候，那么我们可以保证 $E_{in} 和E_{out}$ 接近。

VC维的定义

上节课我们证明了VC 边界。
这里写图片描述
同时，根据霍夫丁不等式；

这里写图片描述
当
1）假设空间存在断点
2）资料足够大
3）假设空间中存在一个假设函数，使得 $E_{in}$ 足够小。

那么我们就可以得到机器学习是可行的。
VC维的定义是来自上节中我们讲到的断点。
VC维是在假设空间中，给定资料足够大的情况下，最大能够shatter点的个数，是不是很像断点的定义，断点是指第一个不能被shatter点的个数。所以。

d v c =' m i n i m u m k' - 1

$d_{vc}='minimum k '-1$
当资料量小于

dvc $d_{vc}$ ，那么我们的资料可能会被shatter掉，当资料量大于

dvc $d_{vc}$ 一定不能被假设空间shatter。所以我们的成长函数可以表示为：

m H \leq N d v c

$m_{H}\leq N^{d_{vc}}$
如下表示了4种情况下的VC 维情况。
这里写图片描述

当vc维是有限的情况下，会保证机器学习可行。
同时vc维和演算法A无关，和分布P无关，和目标函数

f $f$ 无关。
这里写图片描述

在坏的情况下，也保证是可以学习的。

如果存在一个N笔资料不能被shatter，那么 $d_{vc}$ 是小于N呢？答案是不是的，只有任意N笔资料不能被shatter才行， $d_{vc}是指的最大能够shatter的个数$

PLA的VC维

我们以二维空间下的PLA为例，假如资料是线性可分的，那么我们知道假设空间中存在 $g$ 使得 $E_{in}=0$

又因为我们知道二维空间下的VC维是有限的，所以我们在资料量足够大的情况下证明 $E_{out}$ 也接近0。

这是在二维的情况下，那么在三维，四维或者更高维度呢？VC维到底是多少呢？
我们知道PLA在1维的时候， $d_{vc}=2$
在二维的时候， $d_{vc}=3$
那么再N维的时候是不是 $d_{vc}=N+1$ ？
如果要证明 $d_{vc}=N+1$ ，需要证明 $d_{vc}\leq N+1$ ,且 $d_{vc}\geq N+1$

下面进行证明，首先证明 $d_{vc}\geq d+1$

要证明 $d_{vc}\leq d+1$ ,那么就是对于任意的d+2个点都不能shatter。

同理，我们给定(d+2)*(d+1)的一个矩阵，那么这个矩阵一定是线性相关的。所以总有一笔资料是可以用其他资料来表示的。那么就会导致其他的资料确定了之后，那么这笔资料就确定了，而shatter是要表示任意的两种情况，现在却是确定的。就是表示任意的d+2笔资料是不能被shatter的。

所以证明了d维的PLA的vc维是d+1。

VC维的物理直觉

上面中我们其实证明了假设空间的维度和VC维的关系。
比如上面的，PLA的维度和VC维度是有关系的，这也是为啥是叫VC 维。

VC维的物理意义其实就是在二分类的情况下，假设空间的自由度。或者说是维度。就像上面的旋钮的个数。而对应的是一般情况下算法的参数个数，比如为什么神经网络容易过拟合，就是因为参数太多了，vc维太大导致的嘛。
我们再回到第五节讲到的M，看看M和 $d_{vc}$ 的关系。

根据霍夫丁不等式，当M很小的时候，对应 $d_{vc}$ 也比较小，那么会导致假设空间中备选函数少，那么久不太可能使得 $E_{in}$ 比较小。但是 $E_{in} 和 E_{out}$ 和很接近。
同理当M很大的时候，可以得到相应的结论。

VC维的解释

在霍夫丁不等式中，我们知道坏事情发生的概率是在一个范围内，反过来讲就是好事情限定在1减去这个概率中。
如下图所示：

上面的一张图就解释了为啥当我们选用很复杂的模型的时候，就是vc维比较大，模型复杂度高，这样E(out)也会变大，这就gg了。
所以这里也建议在机器学习中不要一上来就采用复杂的模型，一般是从简单的模型开始，比如LR，svm等。

我们再来看看数据量大小的评估

这里假设坏事情发生的概率 $\delta =0.1$ 就是希望在未知样本的正确率达到90%。同时呢 $\epsilon=0.1$ 。就是 $E_{in}和E_{out}$ 相差比较近。采用2D的PLA。
就得到
1）如果我们需要达到这样的小姑，需要10000* $d_{vc}$ 的样本量就是30000个点。
2）实际过程的时候，其实只需要10* $d_{vc}$ 。

为啥差异这么大呢？如果你仔细看了整个推导过程就能够发现，这里用了太多的上界叠加。

又四个点：
1）霍夫丁不等式是对容易的分布，任意的目标函数都成立的，一般来说我们的资料都是有特定分布得。
2）我们使用了成长函数来估计假设空间的大小
3）我们用了 $N^{d_{vc}}$ 来估计成长函数，这就放的很宽松了
4）我们使用了叠加的方式，对于发生不好几率的情况下。

所以这些状况进行了叠加导致通过公式计算需要大量的样本，实际情况则不然。但是要想在公式上进一步压缩，现在看来还不太行。

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

确定要放弃本次机会？
福利倒计时
: :

立减 ¥
普通VIP年卡可用
立即使用

cqychen

关注关注

1
点赞

踩

2

收藏

觉得还不错? 一键收藏

0
评论

分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫

举报

举报

专栏目录

林轩田《机器学习基石》（七）—— The VC dimension

weixin_43463276的博客

07-22 345

首先明确：Generalization是“举一反三”的能力。什么是？答：未来测试表现与我们现在的表现是类似的。上一次我们说到，如果N足够大，且有breakpoint，那么对于breakpointk来说，有我们是否可以利用最右端的呢？答案是肯定的，可以发现因此，时候，我们有由于我们一开始在解决“两个问题”的时候已经假设N够大（之前已经讲过什么是“两个问题”，一会儿还会再复习一下，现在就先默认），所以上述可以删去。综上，我们可以把之前一直提的不等式写为如下的样子： ...

林轩田-机器学习基石课堂笔记（六）Theory of Generalzation

sinat_33397120的博客

02-21 464

1、Restriction of Break Point回顾一下之前学习到的定5义①成长函数mH(N)：假设空间在N个样本点上能产生的dichotomy数量，即样本点在二元分类下的组合情况。②突破点（Break Point）：不能满足完全分类情形（shattered：即N个点所有组合情况都出现）的样本点个数，即不可分出2^N种dichotomy。之前我们学习了四种情况下的成长函数及它们的Break...

参与评论您还未登录，请先登录后发表或查看评论

【林轩田】机器学习基石（七）——VC维

sjz_hahalala479的博客

08-04 1320

Lecture 7: VC Dimension VC维 Definition of VC Dimension VC维的定义复习1 上节课，林教授讲到了，当样本NNN足够大，且成长函数mH(N)mH(N)m_{H}(N)存在断点kkk时，可以概率性地推出Eout≃EinEout≃EinE_{out} \simeq E_{in} 即有断点k的mH(N)≤B(N,k)≤∑i=0k−1(...

林轩田-机器学习基石课堂笔记（七） The VC Dimension

sinat_33397120的博客

02-21 503

1、Definition of VC Dimension我们上次学习到，如果我们的假设空间存在Break Point，那么它一定存在成长函数mH(N)被某个上限函数B(N,k)所约束，这个上限函数也会被某个多项式约束，而这个多项式最高项为N^(k-1)。因此我们可总结为：①我们需要有一个好的hypothesis，也就是存在Break Point。②我们需要有一个好的数据集D，也就是一个比较大的D。...

林轩田机器学习基石笔记（第27节）——VC Dimension of Perceptrons

神兽乌鸦

09-09 562

一、复习2D PLA算法如下图所示，左边红色部分表示如果数据集DDD是线性可分的情况下，PLA算法最终会停下来，我们会得到一条能够把所有数据都二分为两类的线段，该线段能够保证在已知的数据上犯错的概率为0，即Ein(g)=0Ein(g)=0E_{in}(g)=0。图中右边部分，则通过霍夫丁不等式从侧面证明了如果我们数据量够大，并且dVCdVCd_{VC}已知的情况下，我们可以保证Ein(g)...

林轩田之机器学习课程笔记（why can machines learn之training versus testing）（32之5）

小猪观察家

12-23 548

概要前文总结有效的切分直线有效的假设空间断点break point欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen概要本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行，但是有的情况下是可以的。当假设空间有限，同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。前文总结上节中，我们讲到假如测试资料和训练资料来自同一个分布，如果假设空间有限，那

林轩田《机器学习基石》课程笔记7 -- The VC Dimension1

08-03

在林轩田的《机器学习基石》课程中，提到VC Dimension与模型的泛化能力紧密相关。如果一个假设空间有break point k，这意味着在k个输入点上，这个假设空间的成长函数是有界的。成长函数描述了随着输入点数量增加，...

林轩田-吴恩达机器学习笔记.pdf

09-22

林轩田在课程中细致地讲解了机器学习中的关键问题，包括学习问题的本质、如何对Yes-No问题进行学习、不同类型的学习方法、学习的可行性、训练与测试的区别、泛化理论、VC维、噪声和误差、线性回归、逻辑回归、线性...

Coursera 平台林轩田《机器学习基石》与《机器学习技法》课程 PPT、作业及课堂笔记合集

最新发布

08-17

在这众多的课程资源中，林轩田教授的机器学习系列课程，即《机器学习基石》与《机器学习技法》，因其深入浅出的授课方式和的内容备受推崇，成为机器学习领域的经典教程。林教授的课程不仅是初学者理解机器学习理论的...

台湾大学-林轩田-机器学习笔记

05-13

台湾大学林轩田教授的机器学习课程笔记，为机器学习的理论和实践提供了全面而深入的介绍...台湾大学林轩田教授的机器学习课程笔记是学习机器学习领域的宝贵资源，无论是对于学术研究还是工业应用，都有重要的参考价值。

台大林轩田机器学习基石资源汇总精炼笔记.zip

01-06

《台大林轩田机器学习基石资源汇总》是一份针对机器学习基础知识的综合学习资料，由台湾大学的林轩田教授提供。这份精炼笔记涵盖了机器学习领域的重要概念、算法和应用，旨在帮助学习者系统地理解和掌握机器学习的...

关于霍夫丁不等式的推导

06-13

这篇为霍夫丁不等式的英文论文。

机器学习基石笔记7——为什么机器可以学习（3）

weixin_30460489的博客

02-25 148

转载请注明出处：http://www.cnblogs.com/ymingjingr/p/4271742.html 目录 机器学习基石笔记1——在何时可以使用机器学习(1) 机器学习基石笔记2——在何时可以使用机器学习(2) 机器学习基石笔记3——在何时可以使用机器学习(3)(修改版) 机器学习基石笔记4——在何时可以使用机器学习（4） 机器学习基石笔记5——为什么机器可以学习（1） ...

机器学习基石——VC维浅谈

qq_29508953的博客

01-31 1089

VC维这个概念很重要，关于机器学习中预防过拟合的一些操作都可以用这个概念解释。http://www.flickering.cn/machine_learning/2015/04/vc%E7%BB%B4%E7%9A%84%E6%9D%A5%E9%BE%99%E5%8E%BB%E8%84%89/中对VC维有非常详细的介绍，本文是对其的一些整理与理解。了解VC维之前，需要知道一个Heoffding不...

台大林轩田·机器学习基石记要

热门推荐

qiusuoxiaozi的博客

06-01 1万+

台大林轩田·机器学习基石记要昨天开始看林轩田的机器学习基石，从今天起开始去粗取精本文在差不多是随堂笔记，可读性不好。。第一讲比较基础，一些概念自己早已经理解了，所以不再做笔记，有点印象的是讲到了ML、DL、AI的一些联系与区别，ML主要是想从数据中学习/逼近一个理想的函数f(x)第二讲讲到了PLA，感知器学习算法，并且证明了线性可分时感知器收敛定理（与Haykin的Neural Networks

《台大机器学习基石》Hoeffding不等式

tyxr

02-15 2078

Hoeffding不等式下面有一个罐子罐子中的球是橙色的概率是μ，现从罐子中取出N个数量的球作为样本，其中样本中含橙色求的概率是ν，那么μ和ν是否会接近呢？这里有一个叫做Hoeffding不等式可以来解释该问题大致的表述就是μ与ν之差的绝对值小于ξ的概率为2exp(-2ξ2N)（这个概率也叫坏事发生的几率，林老师的叫法真的很kwy ^_^）,ξ越小，μ与ν越接近，其概率：ξ越大，坏事发生的几率越小...

台大林轩田《机器学习基石》学习笔记：可行性（Hoeffding、Multi-binhoeffding、VC bound）

拖延癌患者自愈小记

04-18 4365

台大林轩田《机器学习基石》学习笔记：可行性（Hoeffding、Multi-binhoeffding、VC bound）

机器学习基础--VC Dimension

weixin_41943868的博客

02-18 1916

主要参考： http://www.mamicode.com/info-detail-1148920.html https://blog.csdn.net/yc1203968305/article/details/78574174 https://blog.csdn.net/dQCFKyQDXYm3F8rB0/article/details/87484494 VC Dimension 作用：...

机器学习中输入空间、特征空间、假设空间

Nico的博客

12-28 3376

容易迷糊的几个概念：输入空间：X 输出空间：Y 特征空间：每一条样本被称作是一个实例，通常由特征向量表示，所有特征向量存在的空间称为特征空间。特征空间有时候与输入空间相同，有时候不同（例如word embbeding），不同的情况是输入空间通过某种映射生成了特征空间。联合概率分布：两个以上随机变量所组成的随机向量的概率分布称作是联合概率分布。根据对象的类型可分为离散型随机变量以及连续...