【机器学习基石笔记六】------Theory of Generalization（一般化理论---举一反三）

最新推荐文章于 2021-09-20 21:05:35 发布

liff_lee

最新推荐文章于 2021-09-20 21:05:35 发布

阅读量599

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/m0_38103546/article/details/82377293

版权

机器学习专栏收录该内容

9 篇文章 10 订阅

订阅专栏

第五节主要讨论M的数值大小对机器学习的影响。如果M很大，那么就不能保证机器学习有很好的泛化能力，所以问题就转化为验证M有限，即最好按照多项式成长。然后通过引入了成长函数 $m_{H}(N)$ 和dichotomy以及break point的概念。提出2D perceptrons的成长函数 $m_{H}(N)$ 是多项式级别的猜想。以下探讨这个多项式的形成。

Restriction of Break Point

之前介绍的四种成长函数与break point之间的关系为：

计算k=2的时候，不同的N值成长函数 $m_{H}(N)$ 是多少？N=1时， $m_{H}(N)$ =2；当N=2时，由break point=2知任意两点都不能被shattered（即不能分解为 $2^{N}$ 种dichotomies）， $m_{H}(N)$ 最大值只能是3；当N=3时，简单绘图分析可得 $m_{H}(N)$ =4，即最多只有4种dichotomy。

可以发现，当N>k时，break point限制了 $m_{H}(N)$ 值的大小，也就是说影响成长函数 $m_{H}(N)$ 的因素主要有两个：

抽样数据集N
break point k（这个变量确定了假设的类型）

那么，给定N和k，就能够证明 $m_{H}(N)$ 的最大值的上界是多项式的，则根据hoeffding不等式，使用 $m_{H}(N)$ 代替M，得到机器学习是可行的。因此，证明了 $m_{H}(N)$ 的上界是poly(N)，是我们的目标。

Bounding Function：Basic Cases

界限函数bounding function B(N,k)：当break point=k时可能的 $m_{H}(N)$ 的最大值。

求解B(N,k)的过程为：

当k=1时，B(N,1)的值恒为1；

当N<k时，根据break point的定义，得到B(N,k)= $2^{N}$ ；

当N=k时，此时N是第一个出现不能被shatter的值，所以最多只能有 $2^{N}-1$ ，则 $B(N,k)=2^{N}-1$ ；

Bounding Function：Inductive Cases

N>k时，计算bounding function比较复杂，其推导过程如下，以B(4,3)为例，首先试着查看能否构建B(4,3)与B(3,x)之间的关系。

首先，将B(4,3)的所有情况写下来，共有11组，将其分为两种数据橙色（成对部分）与紫色（单一部分）部分，橙色部分是有三个点相同，另一个点有两种可能（成对），紫色部分不满足橙色的条件。

可以将B(4,3)写作 $B(4,3)=2\alpha +\beta$ ，B(4,3)表示4个点中任何三个点不能shatter，所以dichotomies on ( $x_{1},x_{2},x_{3}$ )也不能shatter，所以 $\alpha +\beta \leq B\left ( 3,3 \right )$ 。

下面我们去掉 $x_{4}$ 并只查看橙色的部分，即 $x_{1},x_{2},x_{3}$ 的四种组合，发现其中任意两个点都不能shatter，以此说明 $\alpha \leq B\left ( 3.2 \right )$ ；

综合以上，得出B(4,3)的推导如下：

推广到B(N,k)的推导为：

根据得出的上限公式填入表中：

我们称B(N，k)是上限的上限，下面来证明一个不等式 $B\left ( N,k \right )\leq \sum_{i=0}^{k-1}\binom{N}{i}$ ，这个不等式右边的最高次幂是k-1，即满足多项式poly(N)，这是我们想要得到的结果。

所以，我们现在有了使用上界和递推公式得到的简单的推导，对于固定的k，B(N，k)的上限为poly(N)所限，如果break point存在成长函数 $m_{H}(N)$ 为poly(N)。

使用上限函数检测之前得出的成长函数值，发现都满足；所以，我们得出的结论是对于2D perceptrons，break point为k=4， $m_{H}(N)$ 的上界为 $N^{k-1}$ 。推广一下，也就是如果能找到一个模型的break point，并且是有限大的，那么就可以推断出成长函数 $m_{H}(N)$ 有界。

A pictorial Proof

我们已经知道成长函数的上界是poly(N)，如果能将 $m_{H}(N)$ 代替M代入到hoeffding不等式中，就能得到 $E_{out}\approx E_{in}$ 的结论：

实际上并非简单的替换就可以，正确的表达式是：

其中加入了一些常数，证明分为三个步骤：

最终，通过引入成长函数 $m_{H}(N)$ ，得到一个新不等式，成为Vapnik-Chervonenkis(VC) bound；

对于2D perceptrons，它的break point是4，那么成长函数 $m_{H}(N)=O(N^{3})$ ，所以，我们可以说2D perceptrons是可以进行机器学习的，只要找到hypothesis 使得 $E_{in}\approx 0$ ，就能保证 $E_{in}\approx E_{out}$ 。