课程简介:
本讲通过回顾上一讲内容,引出了VC维的定义,它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用,指出它反映了函数集的学习能力,VC维越大则学习机器越复杂
课程大纲:
1、定义(The definition)
2、感知器的 VC 维(VC dimension of perceptrons)
3、VC 维的解释(Interpreting the VC dimension)
4、边界的泛化(Generalization bounds)
1、定义
dvc(H) = the most points H can shatter。模型(H)能够打散的最多的点。在这里打散是指能够把所有的点任意分类。对于二分类,打散 N 个点表示可以产生 2^N 种的可能分类
如果我们清楚断点(k)的概念,那很容易得知 dvc(H) = k - 1.(为了方便,可能会用 d 代替 dvc(H))
VC 维与学习的关系:
如果 dvc(H) 是有限的,则 g ∈H 将会得到泛化(在第六课已经从理论上证明了)。
注:在机器学习中的泛化是指通过样本得到的规律适用于样本外的数据的能力,即 Ein 与 Eout 的差距
上述声明具有以下性质:
1、与学习算法无关。无论如何,我们都有办法得到泛化的 g。
2、与输入数据的分布无关。因为我们已经考虑了所有的情况,该声明适用于所有的情况。
3、与目标函数无关。我们根本就不关心目标函数。我们只关心样本数据和测试数据。
4、g 只跟样本数据和假设集 H 有关。假设集决定了 g 的取值范围。样本数据决定了 g 的值
2、感知器的 VC 维
公式:dvc(H) = d + 1.
其中 H 是感知器模型,d 是感知器的维度。(对于二分类)
证明:
为了证明 dvc = d + 1.我们先证明 dvc >= d+1 ,然后证明:dvc <= d + 1.
1) 证明 dvc >= d + 1:
根据定义,我们必须有:当点的个数为 d+1 的时候,我们可以打散所有的点。假设 Y 是 d+1 个点的所有可能分类结果(2^N),则对于任何一种结果 y ∈Y ,我们均要找到一组参数 W 使得 XW = y。如果 X 可逆,则 W = (X^-1) * y。因此只要我们能够找到一组数据集,其可逆,则证明成立。我们现在找到如下一组X ,共 d+1 个点,每个点都是 d+1 维的,其中包括常数部分。其取值如下所示,该矩阵是可逆的,证明完毕。
2) 证明 dvc <= d +1
为了证明 dvc <= d +1 我们只需要证明对于任何 d+2 个点,我们无法打散他们。
即我们只需要找到一组该感知器模型不能对其进行分类的数据即可。
</