林轩田之机器学习课程笔记（why can machines learn之training versus testing）（32之5）-CSDN博客

本文链接：https://blog.csdn.net/cqy_chen/article/details/78881965

概要
前文总结
有效的切分直线
有效的假设空间
断点break point

欢迎转载，可以关注博客：http://blog.csdn.net/cqy_chen

概要

本节主要讲训练和测试有什么不一样。上节中说到机器学习不可行，但是有的情况下是可以的。当假设空间有限，同时资料来自某一个分布。本节讲述当假设空间无限的时候会如何。

前文总结

上节中，我们讲到假如测试资料和训练资料来自同一个分布，如果假设空间有限，那么我们说机器学习是可行的。
这里写图片描述
那么前面四节中主要围绕了两个问题：

1) $E_{in} 和E_{out} 会接近?$
2) $如何使得E_{in}变得更小？$
那么上节课中提到的M扮演了什么角色呢？
这里写图片描述
当M很小的时候
1）根据霍夫丁不等式， $E_{in}和E_{out}$ 在大部分情况下都是很接近的。满足第一个条件。
2）但是当M很小的时候，假设空间可选的假设就很少了，这个时候就会导致不一定能找到一个假设使得 $E_{in}$ 很小。

当M很大的时候
1）那么根据霍夫丁不等式， $E_{in}和E_{out}$ 很大可能不接近。就是机器学习学习不到东西。
2）但是我们可能能找到一个假设使得 $E_{in}$ 很小。

那么能不能将M替换成一个小小的m呢？
这里写图片描述
假如我们可以找到一个小的m比M小很多，来替换M。是不是就很不错了呢？

有效的切分直线

回顾上节，我们到底为什么会的到很大的M呢？
这里写图片描述
我们可以看到这里直接用的加号。
实际的情况呢？比如在PLA中，两条很相近的直线，那么他们的 $E_{in}和E_{out}$ 应该是很接近的。这样的话，其实实际情况是不应该使用加法，而应该去掉重叠的部分：

我们以PLA为例：在二维平面中，有着无数条线，可不可以将这些线进行分类呢？很多线是具有差不多的 $E_{in} 和E_{out}$ 的。我们可以从资料出发，因为资料是有限的。
如果资料只有一笔，那么有几类线呢？只有两种嘛。一种判断是+1，一种判断是-1。
如果有两个点呢？
这里写图片描述
这样就就产生了4种线条。
如果是三个点呢？就产生了8种线条。如果三个点排列在一起的话，就只有6种。

这里写图片描述

如果是4个点呢？
这里写图片描述
这个时候是只有14种线条，而不是16种。

当资料的数量增长的话，根据霍夫丁不等式，有限的线条是远小于指数式的增长的。那么就会导致 $E_{in}和E_{out}$ 很接近。所以尽管有很多很多线条，但是如果我们的假设空间的数量增长很慢的话，证明机器学习是可以学习到东西的。

有效的假设空间

这里以二分类为例。假设每条直线将资料分开后，这些资料被判断为+1或者-1。那么，如下图；
这里写图片描述
假设空间的线条最大上线是 $2^N$ 个。
这里定义一个函数：增长函数，就是 $m_h(N)$ ，就是根据资料个数，得到最大的一个假设空间。

这里再简单点，假如是在一维空间中，只有正方向是+1，负的方向是-1。那么可以得到 $m_h(N)=N+1$ ,这个是远远小于 $2^N$ .
这里写图片描述
假如假设空间是一个凸集呢？

其实我们得到了如下一些空间的成长函数：

断点（break point）

这里再来一个定义，断点：成长函数是随着资料的增长而增长的，那么我们称第一个不能被完全分割的点为断点。
比如在二维的PLA中，前面三个点都可以被划分开，而到第四个点，就找不到 $2^N$ 中划分方法了，所以我们说二维的PLA的断点是4。
这样我们可以得到：
这里写图片描述
那么这个断点到底是多少呢？
这里留下一个悬念：

我们说断点个数和资料量以及维度相关， $O(N^{k-1})$
这样的数量级。