【林轩田】机器学习基石（六）——泛化理论

最新推荐文章于 2023-04-23 17:09:55 发布

sjz_hahalala479

最新推荐文章于 2023-04-23 17:09:55 发布

阅读量1.1k

点赞数 1

分类专栏：学习笔记机器学习 [林轩田]机器学习基石学习笔记

本文链接：https://blog.csdn.net/sjz_hahalala479/article/details/81365658

版权

学习笔记同时被 3 个专栏收录

32 篇文章 3 订阅

订阅专栏

机器学习

11 篇文章 0 订阅

订阅专栏

[林轩田]机器学习基石学习笔记

9 篇文章 23 订阅

订阅专栏

ppt
video

Lecture 6: Theory of Generalization

6.1 Restriction of Break Point 断点的限制

这一小节提出了一个问题，当我们最小的断点 $k=2$ ，时，我们能推出什么？

N=1时， $x_1$ 是圈、叉都可以，这样有 $m_H(1) = 2$
N=2时，注意到 $k=2$ 是断点，所以 $m_H(2) \le 2^2 = 4$ ， $m_H(2)$ 最大为3
N=3时，注意到 $k=2$ 是断点，所以 $x_1,x_2,x_3$ 中的任两个点都是不能shatter的，林教授以图示的方式说明了，在任两个点都不能shatter的情况下， $m_H(3)$ 最大为4

注意到，这里 $m_H()3$ 已经远小于 $2^3$ 了。
即，当 $N>k$ 时，断点 $k$ 可以极大地限制 $m_H(N)$ 的增长。

更进一步，如果上图成立，哈哈，霍夫丁不等式的右边就会接近0，我们无限 $M$ 的学习可行性也就被论证了。

6.2 Bounding Function: Basic Cases 上界函数(基本案例)

我们这里给出一个新的定义，叫做上界函数， $B(N,k)$ ，它有两个参数, $N$ 和 $k$ ，它的含义是：在断点为 $k$ 时， $m_H(N)$ 的最大可能值。

通过这个上界函数，我们隐藏了 $H$ 的细节，也就是不论我们的假设函数 $h$ 是什么，只要 $N$ 和 $k$ 定了， $m_H(N)$ 的上界就不会变。
它的组合数量解释如下：一个最大长度为N的向量，每个维度有圈和叉两个值，这个向量的任意长度为k的子向量都不shatter，求问这样的向量最多一共多少个？

这样的话，我们的新目标就是下面的不等式：

林教授给出了一个表格来显示Bounding Function

我们把这个表分为了几块

标号为1这个块，当 $k=1$ 时， $B(N,1) = 1$
标号为2这个块，当 $N<k$ 时， $B(N,k) = 2^N$
标号为3这个块，当 $N=k$ 时， $B(N,k) = 2^N-1$
标号为4这个块是最重要的，我们填了一个值，就是 $B(3,2)=4$ ，这是我们上一节课计算得到的。

6.3 Bounding Function： Inductive Cases 归纳案例

接下来我们考虑图片中 $B(4,3)$ 的值。
首先，我们使用计算机穷举，得到 $B(4,3)$ 的所有结果，一共有11种。
我们将 $B(4,3)$ 的所有二分重新排列一下，得到如下:

可以看到，橘色的都是成双成对的，橘色的 $x_1,x_2,x_3$ 每对都一样，紫色的是形单影只的。

令

B (4, 3) = 11 = 2 * α + β

$B(4,3) = 11 = 2*\alpha + \beta$

可以看到图中左式的 $\alpha+\beta$ 就是 $x_1,x_2,x_3$ 3个点不shatter的结果，一共有7种，
即

α + β \leq B (3, 3)

$\alpha + \beta \le B(3,3)$

因为还有 $x_4$ 的存在，为了避免 $x_1,x_2,x_3$ 中的任两个与 $x_4$ shatter了， $/alpha$ 中的任两个也不能shatter。
所以

α \leq B (3, 2)

$\alpha \le B(3,2)$

所以，加起来，

B (4, 3) \leq B (3, 3) + B (3, 2)

$B(4,3) \le B(3,3) + B(3,2)$

推断一下，就发现了如下规律：

整理一下，规律如下：

这样就可以证明，在存在固定断点 $k$ 的情况下， $B(N,k)$ 的上限是多项式形式的！！

6.4 A Pictorial Proof 图示法证明

最开始，我们根据霍夫丁不等式，给出的期望坏事情概率上界为

P [| E o u t (g) - E i n (g) | > ϵ] \leq 2 * M * e x p (- 2 * N * ϵ 2)

$P[|E_{out}(g) - E_{in}(g)|>\epsilon] \le 2*M*exp(-2*N*\epsilon^2)$
因为

M M $M$ 可能是无限大的，这样右边界就求不出来了，求不出来，我们机器学习的可行性也就无法证明；
所以，我们用了一些手段，以有限的种类，代替无限的数量，将不等式变成了

P [| E_{o u t} (g) - E_{i n} (g) | > ϵ] \leq 2 * m_{H} * e x p (- 2 * N * ϵ^{2})

$P[|E_{out}(g) - E_{in}(g)|>\epsilon] \le 2*m_{H}*exp(-2*N*\epsilon^2)$
这里，

mH m H $m_H$ 是某个有界的值。又经过一些推导，我们发现

mH m H $m_H$ 和样本数量

N N $N$ 还有断点

k

$k$ 的值有关。

当不存在断点时， $m_H(N) = 2^N$
当存在断点k时， $m_H(N) = O(N^{k-1})$

但是，虽然我们最终希望得到的不等式是这样的：

P [\exists h \in H, s . t . | E o u t (h) - E i n (h) | > ϵ] \leq 2 * m H (N) * e x p (- 2 * N * ϵ 2)

$P[\exists h \in H, s.t. |E_{out}(h) - E_{in}(h)|>\epsilon] \le 2*m_{H}(N)*exp(-2*N*\epsilon^2)$

实际上，当 $N$ 足够大时，经过计算后，不等式却是这样的

P [\exists h \in H, s . t . | E_{o u t} (h) - E_{i n} (h) | > ϵ] \leq 2 * 2 m_{H} (2 N) * e x p (- 2 * \frac{1}{16} * N * ϵ^{2})

$P[\exists h \in H, s.t. |E_{out}(h) - E_{in}(h)|>\epsilon] \le 2*2m_{H}(2N)*exp(-2*\frac{1}{16}*N*\epsilon^2)$

接下来，我们来证明上式。

第一步，使用 $E_{in}^{'}$ 代替 $E_{out}$

注意到 $E_{in}(h)$ 是有限多的， $E_{out}(h)$ 是无限多的。
我们需要替换掉无限多的 $E_{out}$ ，方法是我们假设在新的数据 $D'$ 上得到 $E_{in}^{‘}$ 。因为我们的 $E_{out}$ 是完整的分布， $E_{in}$ 和 $E_{out}$ 若相差甚远，有一半的概率 $E_{in}^{‘}$ 和 $E_{in}$ 也是相差甚远的。
所以我们可以得到下式：

所以

P [\exists h \in H s . t . | E i n (h) - E o u t (h) | > ϵ] \leq

$P[\exists h \in H s.t. |E_{in}(h) - E_{out}(h)| > \epsilon] \le$

2 * P [\exists h \in H s . t . | E i n (h) - E' i n (h) | > ϵ 2]

$2*P[\exists h \in H s.t. |E_{in}(h) - E_{in}^{'}(h)| > \frac{\epsilon}{2}]$

第二步：按种类分解 $H$

我们知道 $E_{in}$ 最多有 $m_{H}(N)$ 种假设函数， $E_{in}^{'}$ 最多也有 $m_{H}(N)$ 种假设函数。
- 因为 $D和D^{'}$ 样本可能重叠，所以 $E_{in}和E_{in}^{'}$ 最多有 $m_{H}(2N)$ 种假设函数
- $B A D \leq 2 * P [\exists h \in H s . t . | E i n (h) - E' i n (h) | > ϵ 2]$ $BAD \le 2*P[\exists h \in H s.t. |E_{in}(h) - E_{in}^{'}(h)| > \frac{\epsilon}{2}]$
  
  因为我们一个 $h$ 出现 $BAD$ 的几率是上式，使用 $union bound$ 联结假设空间 $H$ 中所有出现 $BAD$ 的几率
  
  $B A D \leq 2 * m H (N) * P [f i x e d h s . t . | E i n (h) - E' i n (h) | > ϵ 2]$ $BAD \le 2*m_{H}(N)*P[fixed \ h \ s.t. |E_{in}(h) - E_{in}^{'}(h)| > \frac{\epsilon}{2}]$
使用无替代的霍夫丁不等式

|Ein−E′in|>ϵ2⟺|Ein−E′in|2>ϵ4

⟺|Ein−Ein+E′in2|>ϵ4

上述的证明，其实我充满了疑问，但是总之，证明来证明去，我们得到了一个非常有用的东东！！

最终，我们论证了二维平面，感知器学习的可行性！