Foundations of Machine Learning 2nd——第三章（二）growth fuction和 VC-Dimension

最新推荐文章于 2022-10-18 11:14:36 发布

九二_

最新推荐文章于 2022-10-18 11:14:36 发布

阅读量770

点赞数 3

文章标签：机器学习

本文链接：https://blog.csdn.net/qq_43631376/article/details/108959967

版权

Foundations of Machine Learning 2nd——第三章（二）growth fuction和 VC-Dimension

前言
Growth function
VC-dimension
定义1 VC-dimension

前言

我们上篇文章讲了对于映射集 $H$ 无限的情况，可以使用拉德马赫复杂度来表示其generalization error边界，然而拉德马赫复杂度的计算十分困难，因此本节引入VC维的概念来使得这个边界可以在现实中被计算出来，在介绍VC维之前我们先介绍growth function这个先验知识（VC维的generalization bound需要以growth function作为中间媒介）。

Growth function

growth function中文名翻译成生长函数…我总感觉像生物用语。。所以还是叫英文名字吧。。
先来看看他的定义：
对于映射集 $H$ 的growth function： $\Pi_{H}(m):N\rightarrow N$ ，定义如下：
$\forall m\in N, \Pi_H(m) = \max\limits_{\{x_1,...x_m\}\subset X}|\{h(x_1),...,h(x_m):h\in H\}|$

解释：我们先引入一个概念： $d i c h o t o m y$ 。它的定义如下：对于一个映射 $h\in H$ ,将 $h$ 作用在样本集 ${x_1,...,x_m\}$ 上会产生一个分类结果（我们假设是二分类），这个结果可能是 ${0,1,...,1\}$ 。我们把这样的一种分类结果称为 $d i c h o t o m y$ 。那么，对于一个样本集来说，将 $H$ 里所有的映射都作用在上面时，最多有 $2^m$ 种结果，因为也许有的结果在当前的问题里肯定不会出现（后面我们会举例子），所以 $d i c h o t o m y$ 的个数也有可能小于 $2^m$ 。那么 $H$ 的growth function要找的就是能产生 $d i c h o t o m y$ 数量最多的一个大小为 $m$ 样本集，他的 $d i c h o t o m y$ 数量即为 $\Pi_H(m)$

所以，growth function给我们提供了另一种计算映射集 $H$ 的丰富度的方法。

那么如何用growth function替代拉德马赫复杂度在约束边界上的位置呢？
需要用到一个马萨特引理（Massart’s Lemma）:

引理1 Massart’s Lemma

定义：令 $A\subset R^m$ 是一个有限集，设 $r=max_{x\in A}\|x\|_2$ ，下式成立：
$\mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m}$
$\sigma_i$ 是独立同分布的随机变量，取值为 ${1,-1\}$ ， $x_i$ 是向量 $x$ 的第i项。

证明：

需要介绍一个最大不等式定理和推论：
最大不等式定理：
令 $X_1,...,X_n$ 是 $n\geq1$ 的实值随机变量，对于所有的 $j\in[n]$ 和 $t > 0$ ,如果对于一些 $r > 0$ 满足： $E[e^{tX_j}]\leq e^{t^2r^2/2}$ ，那么下列不等式成立：
$E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n}$
证明：
对于任意的 $t > 0$ ，通过指数函数的凹性和杰森不等式，下式成立：
$e^{tE[max_{j\in[n]}X_j]}\leq E[e^{t\max_{j\in[n]}X_j}]=E[\max\limits_{j\in[n]}e^{tX_j}]\leq E[\sum\limits_{j\in[n]}e^{tX_j}]\leq ne^{\frac{t^2r^2}{2}}$
第一步转换利用了指数函数的凹性+杰森不等式

补充杰森不等式：
若 $f (x)$ 是区间[a,b]上的下凹函数，对于人意的 $x_1,x_2...x_n\in[a,b]$ ，有不等式：
$\frac{\sum_{i=1}^nf(x_i)}{n}\geq f(\frac{\sum_{i=1}^nx_i}{n})$
其加权形式为：
在原条件上，且 $a_1+a2+...+a_n=1$ ，且 $a_i$ 都为正数，有：
$f(\sum_{i=1}^na_ix_i)\leq\sum_{i=1}^na_if(x_i)$

最大不等式推论：
令 $X_1,..,X_n$ 是 $n\geq1$ 的实值随机变量，对于所有的 $j\in[n]$ ， $X_j=\sum_{i=1}^mY_{ij}$ ，对于每一个固定的 $j\in[n]$ ， $Y_{ij}$ 都是独立的零均值变量，取值在 $r_i,r_i]$ ，对一些 $r_i>0$ ,下列不等式成立：
$E[\max\limits_{j\in[n]}X_j]\leq r\sqrt{2\log n}$
其中 $r=\sqrt{\sum_{i=1}^mr_i^2}$

证明：
由于 $E[e^{tX_j}]=E[\mathop{\Pi}\limits_{i=1}^me^{tY_{ij}}]=\mathop{\Pi}\limits_{i=1}^mE[e^{tY_{ij}}]\leq \mathop{\Pi}\limits_{i=1}^m e^{\frac{t^2r_j^2}{2}}=e^{\frac{t^2r^2}{2}}$
倒第二个转换用了霍夫丁引理：

令 $X$ 表示 $E [X] = 0$ 的随机变量，且 $a\leq X \geq b, b>a$ ，对于任意的 $t > 0$ ，都有：
$E[e^{tX}]\leq e^{\frac{t^2(b-a)^2}{8}}$

所以能够利用最大不等式来得到该引理。

终于把最大不等式给说完了！现在目光切回到Massart’s Lemma！
如果把Massart’s Lemma中的 $\sigma_ix_i$ 看做一个新的变量 $y_i$ 的话，很容易发现 $y_i$ 取值在 $x_i,x_i]$ 中，且 $\sqrt{\sum_{i=1}^mx_i^2}\leq r$ （注意，这里的r是Massart’s Lemma里定义的）。
把 $\sum_{i=1}^my_i$ 看做新变量X，那么 $\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i=\max\limits_{x\in A}\sum_{i=1}^my_i=\max\limits_{j\in[n]}X_j$
根据最大不等式推论就能得到马萨特引理。
$\mathop{E}\limits_\sigma[\frac{1}{m}\sup\limits_{x\in A}\sum_{i=1}^m\sigma_ix_i]\leq\frac{r\sqrt{2\log|A|}}{m}$

OK 现在证明了马萨特引理了！该想想怎么用growth function替换拉德马赫复杂度了！

推论1

令 $G$ 表示一个函数族，输出取值为 ${-1,1\}$ ,下式成立：
$R_m(G)\leq\sqrt{\frac{2\log\Pi_G(m)}{m}}$

证明：
对于一个固定的样本集 $S=\{x_1,..x_m\}$ ，定义 $G_{|S}$ 为函数结果向量集，对于 $g\in G$ :其结果向量为 ${g(x_1),..,g(x_m)\}^T$ 。因为输出在 ${-1,1\}$ ，所以结果向量的模最大为 $\sqrt{m}$ 。接下来就要用到Massart’s Lemma！！：
$R_m(G)=\mathop{E}\limits_S[\mathop{E}\limits_\sigma[\sup\limits_{u\in G_{|S}}\frac{1}{m}\sum_{i=1}^m\sigma_iu_i]]\leq\mathop{E}\limits_{S}[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}]$
由于 $|G_{|S}|\leq \Pi_G(m)$ :
$R_m(G)\leq\mathop{E}\limits_S[\frac{\sqrt{m}\sqrt{2\log|G_{|S}|}}{m}]=\sqrt{\frac{2\log\Pi_G(m)}{m}}$

注意这个不等式里就用growth function来表示了拉德马赫复杂度的上界。下一步终于到了这一小节的第一个高潮——把约束边界里的拉德马赫复杂度换成growth function！

推理2 growth function的generalization bound

令 $H$ 表示一个函数族，输出值为 ${-1,1\}$ 。对于任意的 $\delta>0$ ，我们都有 $1-\delta$ 的把握对于任意的 $h\in H$ ，下式成立：
$R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2\log\Pi_H(m)}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}$

不过我们的growth function只能算是一个中转站，因为计算growth function需要对所有的 $m\geq1$ 的样本集计算，下面介绍的VC维也是一种计算映射集 $H$ 复杂度的方法，不过更简单实用。

VC-dimension

VC-dimension（Vapnik-Chervonenkis dimension）。
介绍VC维之前先介绍一个概念：“shattering”
shattering表示：如果一个映射集 $H$ ，对一个样本集 $S$ （ $m\geq1$ ），能够产生该样本集的所有可能的dichotomies，即 $\Pi_H(m)=2^m$ ，就称 $H$ shattering $S$ 。

定义1 VC-dimension

一个映射集 $H$ 的VC-dimension是 $H$ 可以shattering的最大到的样本集的大小。
$VCdim(H)=max{m:\Pi_H(m)=2^m}$
所以，如果 $V C d i m (H) = d$ ，说明存在一个大小为 $d$ 的样本集，能够被 $H$ shatter，但是不代表所有大小为 $d$ 的样本集都能被 $H$ shatter。

下面举几个例子来更深入的理解VC-dimension的含义。

Example 1 实线上的区间

这个问题里的映射集就是实线上的各个区间。很明显他的VC-dimension至少是2。因为对于两个样本，他们的所有可能的dichotomy为 $(+, +), (+, -), (-, +), (-, -)$ ，都可以被产生。下图是可视化表示：
在这里插入图片描述
然鹅，没有一个大小为3的样本集能够被 $H$ shatter。（大家自己画画图就知道了~）

Example 2 超平面

首先考虑二维空间的超平面（其实就是一条直线），那么，任何三个非线性的点都可以被shatter。
前方高能——
在这里插入图片描述上面这个图就是三个点时可能的分类结果，虽然只画了四条线，不过每一条线分割出来的两部分都可以交换他们的正负性，因此3个点有8个dichotomy，所以可以被shatter。
而四个点的时候呢？
当他们的正负性为上图所示的时候，就没有直线可以实现。因此不能被shattered。

更一般的，在 $R^d$ 中，我们考虑一个大小为 $d + 1$ 的样本集。令 $x_0=(0,0...,0)$ 是原点。对于 $i\in\{1,...,d\}$ ， $x_i$ 的第 $i$ 个位置为1，其余为0。他们的标签 $y_0,y_1,y_2,..,y_d\in\{-1,1\}$ ，同时定义一个向量 $w$ ,他的第 $i$ 项是 $y_i$ 。于是，超平面定义为： $w·x+\frac{y_0}{2}=0$ ，能够shatter所有的 $d + 1$ 个样本。
$sgn(w·x+\frac{y_0}{2})=sgn(y_i+\frac{y_0}{2})=y_i$

注意，这个公式对于 $s i z e > d + 1$ 的样本集不适用，因为 $x$ 的维数为 $d$

也就是说对于样本在 $R^d$ 的空间中，超平面分类至少能够shatter 大小为 $d + 1$ 的样本。下面我们来考虑 $s i z e > d + 1$ 的情况，要先用到一个定理：

定理1 Radon’s Theorem

任何一个有 $d + 2$ 个在 $R^d$ 的点的样本集 $X$ ，都可以被分成两个子集 $X_1,X_2$ ，且这两个子集凸包相交。

证明：
令 $X=\{x_1,...x_{d+2}\}\subset R^d$ ，下面的等式组成了一个d+1个线性方程组。
$\sum_{i=1}^{d+2}\alpha_ix_i=0\quad \sum_{i=1}^{d+2}\alpha_i=0\\==>\\ \alpha_1x_{1,1}+\alpha_2x_{21}+...\alpha_{d+2}x_{d+2,1} = 0\\...\\ \alpha_1x_{1,i}+\alpha_2x_{2i}+...\alpha_{d+2}x_{d+2,i} = 0\\...\\ \alpha_1+...+\alpha_{d+2} = 0$
未知数（ $\alpha_i$ ）有 $d + 2$ 个，方程有 $d + 1$ 个，因此必有非零解 $\beta_1,...\beta_{d+2}$ 。
又因为 $\beta_1+...+\beta_{d+2} = 0$ ，因此 $J_1=\{i\in[d+2]:\beta_i>0\},J_2=\{i\in[d+2]:\beta_i\leq0\}$ 都是非空集合。我们可以把样本集划分为 $X_1=\{x_i,i\in J_1\}\quad X_2=\{x_i,i\in J_2\}$ 。因为 $\sum\limits_{i\in J_1}\beta_i=-\sum\limits_{i\in J_2}\beta_i$ ，设 $\beta=\sum\limits_{i\in J_1}\beta_i$ ，根据上面的两个公式可得：
$\sum\limits_{i\in J_1}\frac{\beta_i}{\beta}x_i=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}x_i$
因为 $\sum\limits_{i\in J_1}\frac{\beta_i}{\beta}=\sum\limits_{i\in J_2}-\frac{\beta_i}{\beta}=1$ ，且 $i\in J_1 时 \frac{\beta_i}{\beta}>0$ ， $i\in J_2 时 -\frac{\beta_i}{\beta}>0$ ，所以 $\sum_{i\in J_1}\frac{\beta_i}{\beta}x_i$ 同时属于 $X_1,X_2$ 的凸包。
所以不存在超平面能够区分 $X_1$ 和 $X_2$ 。而任意大小为 $d + 2$ 的，样本点在 $R^d$ 的样本集，都可以分出来一组这样的两个子集（凸包相交），所超平面 $H$ 不能shatter大小为 $d + 2$ 的样本集。所以VCdim(hyperplane in R^d)= $d + 1$

Example 3 平行坐标轴的矩形

四个样本点的很容易被证明可以被shatter。下图(a)展示了部分情况，其余的自己画画就能找出来~下图(b)说明了五个样本点的时候肯定不能被shatter。
在这里插入图片描述

还有很多，就不一一列举了~

定理2 Sauer’s Lemma

令 $H$ 表示一个 $V C d i m (H) = d$ 的映射集。对于所有的 $m\in N$ ，下列不等式成立：
$\Pi_H(m)\leq \sum_{i=0}^dC_m^d$

证明：
首先说明，这个推理用了归纳演绎的方法。显然， $m = 1$ 时， $d = 0 或者 d = 1$ 都是符合定理的。假设对于 $(m - 1, d - 1) 和 (m - 1, d)$ 都成立。
固定一个样本集 $S=\{x_1,..,x_m\}$ ，有 $\Pi_H(m)$ 个dichotomy，令 $G=H_{|S}$ 表示被 $S$ 约束的一个映射集合。
考虑 $S^{'}=\{x_1,...x_{m-1}\}$ ，定义 $G_1=G_{|S^{'}}$ 表示被 $S^{'}$ 约束的一个映射集合。如果我们把每一个映射当成是一个非零点集（第 $i$ 个点表示x_i为0/1），可以定义 $G_2$ 如下：
$G_2=\{g^{'}\subset S^{'}:(g^{'}\in G)\land (g^{'}\cup\{x_m\}\in G)\}$
$G_1,G_2$ 的可视化如下：

在这里插入图片描述
（这个 $G_1,G_2$ 解释的太抽象了，这图咱也没咋看懂，我个人理解是： $G_1$ 表示的就是不考虑 $x_m$ 的所有dichotomy， $G_2$ 表示的是对于 $S$ 来说的所有dichotomy里， $x_m=0、x_m=1$ 两种情况都有的前 $m - 1$ 个样本对应的dichotomy。。比如上图里第一行和第二行，除了 $x_m$ 取值不同，其余的取值都相同， $G_1$ 表示的dichotomies里满足这种要求的dichotomies构成 $G_2$ ）

所以 $G_1|+|G_2|=|G|$

由于 $VCdim(G_1)\leq VCdim(G)\leq d$ ，根据我们前面的假设可以得到：
$|G_1|\leq \Pi_{G_1}(m-1)\leq\sum_{i=0}^dC_{m-1}^i$

根据 $G_2$ 的定义，如果 $Z\subset S^{'}$ 可以被 $G_2$ shatter，那么 $Z\cup{x_m}$ 一定可以被 $G$ shatter。所以：
$VCdim(G_2)\leq VCdim(G)-1\leq d-1$
所以
$|G_2|\leq\Pi_{G_2}(m-1)\leq\sum_{i=0}^{d-1}C_{m-1}^{i}$
所以
$|G_1|+|G_2| \leq \sum_{i=0}^dC_{m-1}^i+\sum_{i=0}^{d-1}C_{m=1}^i=\sum_{i=0}^dC_{m-1}^i+C_{m-1}^{i-1}=\sum_{i=0}^dC_m^i$
（最后一步自己把 $C_{m-1}^{i-1}+C_{m-1}^i$ 展开一下就能得到~）

至此，定理得证。

这个定理有啥用呢，看接下来的一个推论

推理1

令 $H$ 表示一个映射集， $V C d i m (H) = d$ ，对于所有的 $m\geq d$ ：
$\Pi_H(m)\leq(\frac{em}{d})^d=O(m^d)$

证明：（用到了上一个推理）
$\Pi_H(m)\leq\sum_{i=0}^dC_m^i\leq\sum_{i=0}^dC_m^i(\frac{m}{d})^{d-i}\leq\sum_{i=0}^mC_m^i(\frac{m}{d})^{d-i}=(\frac{m}{d})^d\sum_{i=0}^mC_m^i(\frac{d}{m})^i=(\frac{m}{d})^d(1+\frac{d}{m})^m\leq(\frac{m}{d})^de^d$

本小节的第二个高潮要来了~在generalization bound中用VCdim替换growth function！！

推理2 VC-dimension generalization bounds

令 $H$ 表示一个映射族，取值在 ${-1,1\}$ ， $V C d i m = d$ 。对于任一 $\delta > 0$ ，都有 $1-\delta$ 的把握，令下式对于所有的 $h\in H$ 成立：
$R(h)\leq\hat{R}_S(h)+\sqrt{\frac{2d\log\frac{em}{d}}{m}}+\sqrt{\frac{\log\frac{1}{\delta}}{2m}}$
注意，这里右边的第二项把growth function generalization bounds里面的 $\log\Pi_G(m)$ 利用上面的推理1换成了 $d\log\frac{em}{d}$

一般化的写法就是：
$R(h)\leq\hat{R}_S(h)+O(\sqrt{\frac{\log(m/d)}{m/d}})$
这个边界可以用在实际估计中了~（只需要知道 $d$ 就行）

九二_

关注

3
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
Foundations of Machine Learning 2nd——第三章（二）growth fuction和 VC-Dimension

Fundations of Machine Learning 2nd——第三章（二）growth fuction和 VC-Dimension前言Growth function引理1 Massart's Lemma推论1前言我们上篇文章讲了对于映射集HHH无限的情况，可以使用拉德马赫复杂度来表示其generalization error边界，然而拉德马赫复杂度的计算十分困难，因此本节引入VC维的概念来使得这个边界可以在现实中被计算出来，在介绍VC维之前我们先介绍growth function这个先验知识。
复制链接

扫一扫