加州理工学院公开课：机器学习与数据挖掘_VC 维（第七课）

本文链接：https://blog.csdn.net/feitianhu213/article/details/39209605

本课程深入讲解了机器学习中的VC维概念，特别是在感知器模型中的应用。VC维被定义为模型能打散的最大样本数目，它反映了模型的复杂度和学习能力。课程探讨了如何利用VC维来指导机器学习，指出VC维越大，所需的训练数据越多，且模型越复杂。通过举例和证明，展示了感知器模型的VC维等于其维度加一，为理解模型自由度提供了新的视角。

摘要由CSDN通过智能技术生成

课程简介：

本讲通过回顾上一讲内容，引出了VC维的定义，它是由统计学习理论定义的有关函数集学习性能的一个重要指标。并通过例子证明函数集的VC维就是它能打散的最大样本数目。课程最后介绍VC维的应用，指出它反映了函数集的学习能力，VC维越大则学习机器越复杂

课程大纲：

1、定义（The definition）

2、感知器的 VC 维（VC dimension of perceptrons）

3、VC 维的解释（Interpreting the VC dimension）

4、边界的泛化（Generalization bounds）

1、定义

dvc(H) = the most points H can shatter。模型（H）能够打散的最多的点。在这里打散是指能够把所有的点任意分类。对于二分类，打散 N 个点表示可以产生 2^N 种的可能分类

如果我们清楚断点（k）的概念，那很容易得知 dvc(H) = k - 1.（为了方便，可能会用 d 代替 dvc(H)）

VC 维与学习的关系：

如果 dvc(H) 是有限的，则 g ∈H 将会得到泛化（在第六课已经从理论上证明了）。

注:在机器学习中的泛化是指通过样本得到的规律适用于样本外的数据的能力，即 Ein 与 Eout 的差距

上述声明具有以下性质：

1、与学习算法无关。无论如何，我们都有办法得到泛化的 g。

2、与输入数据的分布无关。因为我们已经考虑了所有的情况，该声明适用于所有的情况。

3、与目标函数无关。我们根本就不关心目标函数。我们只关心样本数据和测试数据。

4、g 只跟样本数据和假设集 H 有关。假设集决定了 g 的取值范围。样本数据决定了 g 的值

2、感知器的 VC 维

公式：dvc(H) = d + 1.

其中 H 是感知器模型，d 是感知器的维度。（对于二分类）

证明：

为了证明 dvc = d + 1.我们先证明 dvc >= d+1 ,然后证明：dvc <= d + 1.

1) 证明 dvc >= d + 1:

根据定义，我们必须有：当点的个数为 d+1 的时候，我们可以打散所有的点。假设 Y 是 d+1 个点的所有可能分类结果（2^N），则对于任何一种结果 y ∈Y ，我们均要找到一组参数 W 使得 XW = y。如果 X 可逆，则 W = (X^-1) * y。因此只要我们能够找到一组数据集，其可逆，则证明成立。我们现在找到如下一组X ，共 d+1 个点，每个点都是 d+1 维的，其中包括常数部分。其取值如下所示，该矩阵是可逆的，证明完毕。