机器学习中假设函数泛化能力的验证（下）

最新推荐文章于 2024-02-25 06:00:00 发布

独步计院

最新推荐文章于 2024-02-25 06:00:00 发布

阅读量972

点赞数

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/sjkldjflakj/article/details/51900899

版权

机器学习专栏收录该内容

17 篇文章 0 订阅

订阅专栏

之前说到在M有限的情况下，也就时假设空间中的假设函数的个数有限的情况下，我们可以保证，当N足够大的时候，对于假设空间中的所有假设函数h(x)， $E_{in}和E_{out}$ 没有太大差别，那么我们就可以安心的选择一个 $E_{in}$ 最小的假设函数，他的泛化能力得到了保证。

那么在M无限大的情况下呢？

P [(E i n (g) - E o u t (g)) \geq ϵ] \leq 2 M e - 2 ϵ 2 N

$P[(E_{in}(g)-E_{out}(g))\ge\epsilon]\le2Me^{-2\epsilon^{2}N}$
当M无限大的时候，根据不等式，

Ein和Eout $E_{in}和E_{out}$ 差距很大的可能性是非常大的，我们无法接受。那难道就不能做了么？当然不是。

我们在之前证明不等式的时候说

P [B 1 o r B 2 o r . . . o r B M] \leq P [B 1] + P [B 2] + . . .

$P[B_1 or B_2 or...or B_M] \le P[B_1] + P[B_2] + ...$ 但是，这就过分的放大了这个值，因为所有

B1,B2... $B_1,B_2...$ 并不是独立的。也就是说可能平面上有无数条线来划分点。但是又有好多条线他们对点的划分结果是一样的。这些线应该归为一类。

为什么这么说，因为对于这种一类的线比如A，B两条线，他们可能同时产生坏事情（指 $E_{in}和E_{out}$ 差距很大）而不是说A产生了坏事情，或者A不产生坏事情而B产生了坏事情，那这样的概率就要比A.B同时产生坏事情的概率要大很多。

那么我们就从无穷的M中过度到，一共有几类的M，对应到PLA中就是看一共有几类的线。

这里写图片描述

目前来看线的类别其实就是对点的划分的类别，当有N个点的时候，可以产生 $2^N$ 种点的划分（划分成圈和叉）但是有一些划分其实是做不到的，如下图。

这里写图片描述

输入是三个点的时候有时候能划分成六类，最大的时候能划分出八类，也就是说点的划分其实与输入的顺序有关系。当输入点的个数是4的时候，有14种划分。其中有两种划分是无效的

这里写图片描述

那么我们可以用这种有效的且有限的划分类的个数effective(N)代替原有的M

P [(E i n (g) - E o u t (g)) \geq ϵ] \leq 2 e f f e c t i v e (N) e - 2 ϵ 2 N

$P[(E_{in}(g)-E_{out}(g))\ge\epsilon]\le2 effective(N) e^{-2\epsilon^{2}N}$

1. Dichotomies
那么这里我们用一个概念Dichotomies来表示hypothesis set 对大小为N的数据集的划分的集合。这样我们就可以用有限的Dichotomies来代替无限的M，因为Dichotomies集合中元素的个数不会超过 $2^N$

因为数据集的输入个数不同会造成不同大小的Dichotomies,那么我们用一个growth function: $m_H(N)$ 来表示所有不同输入顺序的Dichotomies中，最大的那一个。 $m_H(N)$ 不会超过 $2^N$ 。那么 $m_H(N)$ 到底是多少呢。

我们先不看PLA所产生的假设空间(hypothesis set)也就是超平面上的直线，我们看看一些简单的假设空间的growth function.
这里写图片描述
这个假设空间的函数h(x)=sign(x-a)只能把某一个值a右面的点化为正的，所以对于N个点不同的划分个数N+1个。

2. break point
那么对于PLA的假设空间的直线，我们看当N=1时也就是只有一个点的时候 $m_H(N)=2$ 当N=2的时候 $m_H(N)=4$ 当N=3的时候 $m_H(N)=8$ 而当N=4时 $m_H(N)=14 \le 2^N$ 那么N=4就是break point,因为4个点的时候无法被shattered,(shattered的含义就是说，对于N个输入点，他的 $2^N$ 种情况都可以出现，都是有效的划分)

这里写图片描述

对于其他的假设空间，对应着不同的break point 如上图。比如对于positive rays 的假设空间，break point 是N=2，因为N=1的时候 $2^1$ 两种情况都可以出现，N=2的时候 $m_H(N)=N+1 = 3 \le 2^2$ , 所以N=2 是break point.

现在我们考虑更加一般的情况，我们知道数据样本的数量N，知道break point 那么我们能不能得到对应的 $m_H(N)$ 注意这里我们已经忽略了假设空间。

举个例子，假设现在我们已知break point = 2, 也就是说任意两个点他们无法shattered.(也就是他们所有的 $2^2=4$ 种情况无法同时出现)，那么如下图所示对应不同的N， $m_H(N)$ 的取值：
这里写图片描述
根据这个例子我们就有一种感觉，实际上break point限制了 $m_H(N)$ 的值，尤其是当N大于break point k 的时候。