数据挖掘之VC维、Shatter、VC-dim以及Margin有关的通理

互联网民工蒋大钊

已于 2022-12-14 07:46:01 修改

阅读量1.3k

点赞数 7

分类专栏：人工智能文章标签：数据挖掘人工智能大数据 1024程序员节

于 2022-10-18 11:14:36 首次发布

本文链接：https://blog.csdn.net/qq_44036439/article/details/127380553

版权

人工智能专栏收录该内容

15 篇文章

订阅专栏

文章目录

VC-dimension
- Shatter
- VC-dimension的定义
VC-Based Generalization Theorem
Margin-Based Generalization Theorem
三个通理的联系
相关题目

本文参考：

Measuring the Power of a Classifier With VC Dimension

VC-dimension

VC-dimension是算法复杂度中的一个重要概念，这里我们可以用它衡量一种分类器在一种数据分布上的分类能力，必须限定在特定的数据分布和分类器种类下谈。

Shatter

了解VC-dimension先要了解Shatter的含义，这其实直观地展现了一个数据分布能够被分类器分类的能力，线性分类器linear classifiers在 $\mathbb{R^{2}}$ 的场景下，shatter了下面这三个点的数据分布。shatter译名为粉碎，实际上线性分类器确实把三个点所有可能地情况全“粉碎”出来了。

请添加图片描述
从上面可以看出，线性分类器把所有一个点的情况，两个点的情况，三个点的情况，都正反划分了一次正类和负类，粉碎了所有可能的分类情况，衡量了线性分类器在这个数据分布下的“能力”。

进一步抽象地，如果某一组分类器 $\mathcal{H}$ shatter了一种数据分布 $S$ ，就是对于该数据分布的所有分隔情况，即 $2^{|S|}$ 种组合，可以分类为 $S^{+}$ 正类，剩下的 $S^{-}=S \setminus S^{+}$ 为负类。

请添加图片描述

VC-dimension的定义

VC-dimension的定义就可以抛出，从shatter的场景出发，仍然需要两个要素，分类器集合 $\mathcal{H}$ 和数据分布情况 $\mathcal{P}$ ， $\mathcal{H}$ 在 $\mathcal{P}$ 上的VC-dimension $VC(\mathcal{P},\mathcal{H})$ is the largest subset $\subset \mathcal{P}$ that can be shattered by $\mathcal{H}$ （可以被shatter的最大子集的大小）.

这里比较难理解的点是何为最大子集大小，参考Measuring the Power of a Classifier With VC Dimension中说的“in order to have a VC dimension of N, the classifier must only shatter a single configuration of N points — there will likely be many other configurations of N points that the classifier cannot shatter.” 简单地说，就是在一个数据分布的一个configuration下满足能够shatter N个点（即使该数据分布其他不能够shatter N个点的configuration），我们也可以认为这个数据分布的VC-dimension为N。在图1中已经完全定死的三个点的分布，最大子集大小唯一，直接可以一眼看出。但是如果抽象地来看，我们讨论一般线性分类器Generic Linear Classifiers在 $\mathbb{R^{2}}$ 上的VC维，这个 $\mathbb{R^{2}}$ 就给足了数据分布的可能性，当我们像图一中那样3个点的数据分布是可以的，这也可以说明 $VC(\mathbb{R^{2}},\mathcal{H}) \ge3$ ，实际上我们也找不到4个点能够被shatter的情况，所以 $VC(\mathbb{R^{2}},\mathcal{H}) =3$ . 但是当 $\mathbb{R^{2}}$ 中三点按一条线摆开，这个情况却不能被shatter，总结下来，线性分类器Generic Linear Classifiers在 $\mathbb{R^{2}}$ 上的 $VC(\mathbb{R^{2}},\mathcal{H}) =3$ 但是却不能shatter一条线上的三个点。

实际上，上面所说的 $\mathcal{H}$ 也是一个宽泛的概念，其包含了各种形式的Linear Classifiers，只要是属于 $y = a x + b$ 这种形式的。
请添加图片描述
进一步总结，当 $\mathcal{H}$ 是一般线性分类器的集合，在 $\mathbb{R^{d}}$ 上的 $VC(\mathbb{R^{d}},\mathcal{H}) =d+1$
感性地理解，这也将VC-dim和数据空间维度d联系起来，在假定 $\mathcal{H}$ 能够shatter $\mathbb{R^{d}}$ 的情况下，d越大，VC-dim越大。这种理解有助于后面VC-Based的通理的理解。

VC-Based Generalization Theorem

请添加图片描述

请添加图片描述
相比于之前学过的通理1，该通理摆脱了候选分类器大小set of classifiers $\ln|H|$ 的限制，分子上的关键因素变成了VC维 $\lambda = VC(\mathcal{P},\mathcal{H})$ ，分母上还是训练集合大小 $∣ S ∣$ ，可以在各种场景下应用。
请添加图片描述
这里老师明确的是，其实线性分类器和其他的分类器一样强大，在后面，我们会通过各种数学方法（比如核函数kernel function），将非线性分类问题转换成线性分类问题，但是这样子引入了更多的artificial dimensions，需要付出样本空间维度 $d$ 增大的代价，也就有了更大的VC维 $\lambda$ ，为了误差尽可能小，需要相应地增大 $∣ S ∣$ ，也就更需要更多的训练数据来训练。相当于我们是固定了线性分类器组合 $\mathcal{H}$ ，有可能会将 $d=\infty$ 以便我们引入线性分类器，这也会将 $\lambda$ 带向 $\infty$ 。

也正当 $\lambda=\infty$ , VC-Based通理开始逐渐乏力，进一步地，我们探索线性分类下的Margin-Based通理。

Margin-Based Generalization Theorem

该定理只应用于线性分类中的线性可分场景，后面可以看出，我们实际上只需要考虑线性分类器linear classifier，因为可以讲许多非线性的情况转换成线性分类的情况；同时，我们不论原数据分布是什么，只需要考虑其线性可分linear separable的情况，也即在样本上的训练误差 $err_s(h)$ 为0，从而考虑其他误差项就可以了，引出的Margin-Based通理如下：
请添加图片描述
该通理不再依赖维度 $d$ , 而将优化目标放在了 $R$ 和 $∣ w ∣$ 上，称它为margin-based是因为从后面的支持向量机中我们也可以知道，某个linear separable情况下的超平面的 $margin=\frac{1}{|w|}$ ，在linear separable的情况下需要找出最大的margin，让 ${|w|}$ 最小。对公式进行转换，该公式分子的关键因素为 $\frac{R^2}{margin^2}$ ，即前一章学习过的感知机perceptron训练的迭代次数，分母上还是训练集合大小 $∣ S ∣$ 。

三个通理的联系

三个通理分母上都和训练集合大小 $∣ S ∣$ 有关，通理一分子上为 $\ln|H|$ ，通理二分子上为VC维 $\lambda$ ，通理三分子上为 $\frac{R^2}{margin^2}$ ，这三者并不是完全没有联系的。

在一个有d个参数的模型中，如果每个参数用一个8 byte的浮点数表示，那么这里占用了 $64 * d$ bit的空间，理论上来说 $∣ H ∣$ 就会有 $2^{64*d}$ 种情况，每一种排列即代表一种不同的模型， $\ln|H|=64*d$ ，这个 $d$ 放在通理二上，相当于就是样本空间的维度， $\lambda=d+1$ 与其产生了联系。
请添加图片描述
从上图可以看出VC-dim $\lambda$ 与 margin $\gamma$ 也是有联系的， $\mathcal{H_1}$ 的 $Margin(\gamma_1)$ > $\mathcal{H_2}$ 的 $Margin(\gamma_2)$ ，问题设定的场景分别为考虑 $\ge \gamma_2$ 的所有分类器和考虑 $\ge \gamma_1$ ，显然 $\gamma_2$ 的分类器包含了黑、红、绿，而 $\gamma_1$ 只包含了黑。从VC-dim的定义出发，since $\mathcal{H_1} \sub \mathcal{H_2}$ ， if a set of points $\sub \mathcal{P}$ is shattered by $\mathcal{H_1}$ （for any $\sub \mathcal{S}$ , it can be classifies as +1 ）, $S$ can also be shattered by $\mathcal{H_2}$ , meaning that:
$VC(\mathcal{P},\mathcal{H_1}) \le VC(\mathcal{P},\mathcal{H_2})$
$\gamma$ 越大，通理三 $\frac{R^2}{margin^2}$ 越小，可以近似地将通理二VC-dim $\lambda \approx \frac{R^2}{margin^2}$ ，误差上界也更小。