台大机器学习基石笔记（三）——VC 维2

最新推荐文章于 2019-07-09 22:15:11 发布

楼桑下的龙雏

最新推荐文章于 2019-07-09 22:15:11 发布

阅读量1.2k

点赞数 1

分类专栏：机器学习

机器学习专栏收录该内容

4 篇文章 0 订阅

订阅专栏

上一篇用成长函数 $m_H(N)$ 来衡量Hypotheses Set $H$ 中有效的方程的数量(Effective Number of Hypotheses)，以取代Hoeffding’s Inequality中的大 $M$ ，并用一种间接的方式 — break point，来寻找 $m_H(N)$ 的上界，从而避免了直接研究的成长函数的困难。

学习所需”维他命”(The VC Dimension)

m_ (N) \leq \sum_i = 0 k - 1 (N i)

$m\_{\mathcal{H}}(N)\leq \sum\_{i=0}^{k-1}\binom {N}{i}$
根据之前得到的式子，我们知道如果一个

H $H$ 存在break point，我们就有办法保证学出来的东西能够“举一反三”(good generalization)。一般来说break point越大的

H $H$ ，其复杂度也更高，我们可以使用vc dimension来描述一个

H $H$ 的复杂程度，这个vc dimension来自Vladimir Vapnik与Alexey Chervonenkis所提出的VC Theory。

根据定义，一个 $H$ 的vc dimension(记为 $d_vc(H)$ )，是这个 $H$ 最多能够shatter掉的点的数量 (the largest value of N for which $m_{H(N)}=2^N$ )，如果不管多少个点 $H$ 都能够shatter他们，则 $d_{vc(H)}=∞$ 。不难看出 $d_{vc}$ 与break point k的关系，有￥k=d_{}vc}+1￥，因此我们用这个 $d_{vc}$ 来描述成长函数的上界：

m_ (N) \leq \sum_i = 0 d_v c (N i)

$m\_{\mathcal{H}}(N)\leq \sum\_{i=0}^{d\_{vc}} \binom {N}{i}$
上式右边(RHS)事实上是最高项为

dvc $d_{vc}$ 的多项式，利用数学归纳法可得：

m_ (N) \leq \sum_i = 0 d_v c (N i) \leq N d_v c + 1

$m\_{\mathcal{H}}(N)\leq \sum\_{i=0}^{d\_{vc}} \binom {N}{i} \leq N^{d\_{vc}}+1$

更加一般化的Bound (The VC Generalization Bound)

上一篇的末尾我们设想利用有限的 $m_H(N)$ 来替换无限的大 $M$ ，得到 $H$ 遇到Bad Sample的概率上界：

ℙ D [B A D D] \leq 2 m H (N) \cdot e x p (- 2 ϵ 2 N)

$ℙ_D[BAD D]≤2m_H(N)⋅exp(−2ϵ^2N)$
其中

ℙD[BADD] $ℙ_D[BAD D]$ 是

H $H$ 中所有有效的方程(Effective Hypotheses)遇到Bad Sample的联合概率，即

H $H$ 中存在一个方程遇上bad sample，则说

H $H$ 遇上bad sample。用更加精准的数学符号来表示上面的不等式：

ℙ [\exists h \in  s.t. | E_i n (h) - E_o u t (h) | > ϵ] \leq 2 m_ (N) \cdot e x p (- 2 ϵ 2 N)

$\mathbb{P}[\exists h \in \mathcal{H}\text{ s.t. } |E\_{in}(h)-E\_{out}(h)|\gt \epsilon]\leq 2m\_{\mathcal{H}}(N)\cdot exp(-2\epsilon ^2N)$
注：

∃h∈ s.t. $\exists h \in \mathcal{H}\text{ s.t. }$

H $H$ 中存在(∃)满足

(s.t)... $( s.t )...$ 的

h $h$ 。
但事实上上面的不等式是不严谨的，为什么呢？

mH(N) $m_H(N)$ 描述的是

H $H$ 作用于数据量为

N $N$ 的资料

D $D$ ，有效的方程数，因此

H $H$ 当中每一个

h $h$ 作用于

D $D$ 都能算出一个

Ein $E_{in}$ 来，一共能有

mH(N) $m_H(N)$ 个不同的

Ein $E_{in}$ ，是一个有限的数。但在out of sample的世界里(总体)，往往存在无限多个点，平面中任意一条直线，随便转一转动一动，就能产生一个不同的

Eout $E_{out}$ 来。

Ein $E_{in}$ 的可能取值是有限个的，而

Eout $E_{out}$ 的可能取值是无限的，无法直接套用union bound，我们得先把上面那个无限多种可能的

Eout $E_{out}$ 换掉。那么如何把

Eout $E_{out}$ 变成有限个呢？
假设我们能从总体当中再获得一份N笔的验证资料(verification set)D′，对于任何一个h我们可以算出它作用于D′上的

Ein′ ${E_{in}}′$ ，由于D′也是总体的一个样本，因此如果E_in和E_out离很远，有非常大的可能

Ein $E_{in}$ 和

Ein′ ${E_{in}′}$ 也会离得比较远。

事实上当N很大的时候，

Ein $E_{in}$ 和

Ein′ ${E_{in}}′$ 可以看做服从以

Eout $E_{out}$ 为中心的近似正态分布(Gaussian)，如上图。[|E_in−E_out| is large]这个事件取决于，如果[|E_in−E_out| is large]，则如果我们从总体中再抽一份′出来，有50%左右的可能性会发生[|E_in−E_in′| is large]，还有大约50%的可能[|E_in−E_in′| is not large]。
因此，我们可以得到ℙ[|E_in−E_out| is large]的一个大概的上界可以是2ℙ[|E_in−E_in′| is large]，以此为启发去寻找二者之间的关系。
引理：

(1 - 2 e - 1 2 ϵ 2 N) ℙ [s u p h \in  | E_i n (h) - E_o u t (h) | > ϵ] \leq ℙ [s u p h \in  | E_i n (h) - E_i n' (h) | > ϵ 2]

$(1-2e^{-\frac{1}{2}\epsilon^2N})\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{out}(h)| \gt \epsilon]\leq \mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{in}^{'}(h)| \gt \frac{\epsilon}{2}]$
上面的不等式是从何而来的呢？我们先从RHS出发：

ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2] \geq ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2 a n d s u p h \in  | E i n (h) - E o u t (h) | > ϵ] = ℙ [s u p h \in  | E i n (h) - E o u t (h) | > ϵ] \times ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ] (注 ： sup - 上 确 界 ， 最 小 上 界 。)

$\begin{aligned} &\;\;\;\,\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}] \\\ &\geq \mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2} \mathbf{\;and\;} \underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \\\ &=\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \;\times \\\ &\;\;\;\,\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}\;\;|\;\;\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \\\ &\;\;\;\,\text{(注：sup - 上确界，最小上界。)} \end{aligned}$

上式第二行的不等号可以由

ℙ [_1] \geq ℙ [_1 and _2]

$\mathbb{P}[\mathcal{B}\_1]\geq \mathbb{P}[\mathcal{B}\_1 \textbf{ and } \mathcal{B}\_2]$ 得到，第三、四行则是贝叶斯公式，联合概率等于先验概率与条件概率之积。

下面来看看不等式的最后一项 $\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{in}^{'}(h)| \gt \frac{\epsilon}{2}\;\;|\;\;\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{out}(h)| \gt \epsilon]$ 。对于一个固定的data set D来说，我们任选一个h*使得|E_in(h*)−E_out(h*)|>ϵ，注意到这个h*只依赖于而不依赖于′噢，对于′来说可以认为这个h* is forced to pick out。
由于h*是对于D来说满足|E_in−E_out|>ϵ的任意一个hypothesis，因此可以把式子中的上确界(sup)先去掉。

ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ] \geq ℙ [| E i n (h *) - E' i n (h *) | > ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ]

| E' i n - E o u t | \leq ϵ 2 | E i n - E o u t | > ϵ ⎫ ⎭ ⎬ ⎪ ⎪ \Rightarrow | E i n - E' i n | > ϵ 2

$\left.\begin{matrix} |E_{in}^{'} - E_{out}|\leq \frac{\epsilon}{2}\\\ |E_{in}-E_{out}| \gt \epsilon \end{matrix}\right\} \Rightarrow |E_{in}-E_{in}^{'}| \gt \frac{\epsilon}{2}$
为了直观一点h*就不写了。经过各种去掉绝对值符号又加上绝对值符号的运算，可以发现LHS的两个不等式是RHS那个不等式的充分非必要条件。而LHS第二个不等式是已知的，对于h*必成立的。因此我们拿LHS这个充分非必要条件去替换RHS这个不等式，继续前面的不等式：

ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ] \geq ℙ [| E i n (h *) - E' i n (h *) | > ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ] \geq ℙ [| E' i n (h *) - E o u t (h *) | \leq ϵ 2 | s u p h \in  | E i n (h) - E o u t (h) | > ϵ] \geq 1 - 2 e - 1 2 ϵ 2 N

$\begin{aligned} &\;\;\;\,\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}\;\;|\;\;\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \\\ &\geq \mathbb{P}[|E_{in}(h^{*})-E_{in}^{'}(h^{*})| \gt \frac{\epsilon}{2}\;\;|\;\;\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \\\ &\geq \mathbb{P}[|E_{in}^{'}(h^{*})-E_{out}(h^{*})| \leq \frac{\epsilon}{2}\;\;|\;\;\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{out}(h)| \gt \epsilon] \\\ &\geq 1-2e^{-\frac{1}{2}\epsilon^2N} \end{aligned}$
最后一个不等号动用了Hoeffding Inequality：

ℙ [| . . . | > ϵ] \leq 2 M e x p (- 2 ϵ 2 N) \Leftrightarrow 1 - ℙ [| . . . | > ϵ] \geq 1 - 2 M e x p (- 2 ϵ 2 N) \Leftrightarrow ℙ [| . . . | \leq ϵ] \geq 1 - 2 M e x p (- 2 ϵ 2 N)

$\begin{aligned} &\;\;\;\,\mathbb{P}[|...|\gt \epsilon]\leq 2Mexp(-2\epsilon^2N) \\\ &\Leftrightarrow 1-\mathbb{P}[|...|\gt \epsilon]\geq 1-2Mexp(-2\epsilon^2N) \\\ &\Leftrightarrow \mathbb{P}[|...|\leq \epsilon]\geq 1-2Mexp(-2\epsilon^2N) \end{aligned}$
之前说过对于D′来说，h* is forced to pick out，因此M=1。接着把ϵ替换为ϵ2，就成了

ℙ[|...|<ϵ2]≥2exp(−12ϵ2N) $\mathbb{P}[|...|\lt \frac{\epsilon}{2}]\geq 2exp(-\frac{1}{2}\epsilon^2N)$ 。则我们可以得到引理中的不等式。

对于e−12e2N，一个比较合理的要求是e−12ϵ2N<14，譬如我们有400笔资料，想要E_in和E_out相差不超过0.1。注意到这只是一个bound，只要要求不太过分，也不能太宽松即可，适当的宽松一点是OK的。当然这里也是想跟之前所说的 “ℙ[|E_in−E_out| is large]的一个大概的上界可以是2ℙ[|E_in−E_in′| is large]” 当中的2倍有所结合。

所以就有 $1-2e^{-\frac{1}{2}e^2N}\gt \frac{1}{2}$ 。带回引理，可得：

ℙ [s u p h \in  | E_i n (h) - E_o u t (h) | > ϵ] \leq 2 ℙ [s u p h \in  | E_i n (h) - E_i n' (h) | > ϵ 2]

$\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{out}(h)| \gt \epsilon]\leq 2\,\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E\_{in}(h)-E\_{in}^{'}(h)| \gt \frac{\epsilon}{2}]$
这样一来我们就把无限多种的E_out换成了有限多种的E_in，因为D与D′的大小相等，都为N，因此我们手中一共有2N笔数据，这样作用于D+D′最多能产生m_H(2N)种dichotomies。此时我们针对上面的不等式，就又可以使用union bound了。(关于union bound，可以参考上一篇VC Dimension, Part I)

ℙ [B A D] \leq 2 ℙ [s u p h \in  | E i n (h) - E' i n (h) | > ϵ 2] \leq 2 m  (2 N) ℙ [fixed h s.t. | E i n (h) - E' i n (h) | > ϵ 2] (用 固 定 的 hypothesis 去 看 E i n 与 E' i n 的 差 别 。)

$\begin{aligned} \mathbb{P}[BAD] &\leq 2\,\mathbb{P}[\underset{h\in \mathcal{H}}{sup}\ |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}] \\\ &\leq 2\,m_{\mathcal{H}}(2N)\,\mathbb{P}[\text{fixed } \textit{h} \text{ s.t. } |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}] \\\ &\text{(用固定的hypothesis去看$E_{in}$与$E_{in}^{'}$的差别。)} \end{aligned}$
前面的动作相当于先从总体中抽出2N笔数据，把这2N笔数据当成一个比较小的bin，然后在这个bin中抽取N笔作为D，剩下的N笔作为D′，D和D′之间是没有交集的。在我们想象出来的这个small bin当中，整个bin的错误率为E_in+E_out2，又因为：

| E_i n - E_i n' | > ϵ 2 \Leftrightarrow | E_i n - E _ i n + E _ i n ' 2 | > ϵ 4

$|E\_{in}-E\_{in}^{'}|\gt \frac{\epsilon}{2} \Leftrightarrow |E\_{in} - \frac{E\_{in}+E\_{in}^{'}}{2}|\gt \frac{\epsilon}{4}$
所以用RHS替换LHS之后，前面不等式就又可以使用Hoeffding inequality了：

ℙ [B A D] \leq 2 m  (2 N) ℙ [fixed h s.t. | E i n (h) - E' i n (h) | > ϵ 2] = 2 m  (2 N) ℙ [fixed h s.t. | E i n (h) - E i n ( h ) + E ' i n ( h ) 2 | > ϵ 4] (Hoeffding without replacement) \leq 2 m  (2 N) \cdot 2 e x p (- 2 (ϵ 4) 2 N)

$\begin{aligned} \mathbb{P}[BAD] &\leq 2\,m_{\mathcal{H}}(2N)\,\mathbb{P}[\text{fixed } \textit{h} \text{ s.t. } |E_{in}(h)-E_{in}^{'}(h)| \gt \frac{\epsilon}{2}] \\\ &=2\,m_{\mathcal{H}}(2N)\,\mathbb{P}[\text{fixed } \textit{h} \text{ s.t. } |E_{in}(h)-\frac{E_{in}(h)+E_{in}^{'}(h)}{2}| \gt \frac{\epsilon}{4}]\\\ &\;\;\;\text{(Hoeffding without replacement)} \\\ &\leq 2\,m_{\mathcal{H}}(2N)\cdot 2\,exp(-2(\frac{\epsilon}{4})^2N) \end{aligned}$
这上面千辛万苦得出来的这个bound就叫做Vapnik-Chervonenkis (VC) bound：

ℙ [B A D] = ℙ [\exists h \in  s.t. | E i n (h) - E o u t (h) | > ϵ] \leq 4 m  (2 N) e x p (- 1 8 ϵ 2 N)

$\begin{aligned} \mathbb{P}[BAD] &= \mathbb{P}[\exists h \in \mathcal{H}\text{ s.t. } |E_{in}(h)-E_{out}(h)|\gt \epsilon] \\\ &\leq 4m_{\mathcal{H}}(2N)exp(-\frac{1}{8}\epsilon^2N) \end{aligned}$