台湾大学机器学习基石Lecture4

最新推荐文章于 2024-09-12 20:16:00 发布

年少_当自强

最新推荐文章于 2024-09-12 20:16:00 发布

阅读量236

点赞数 1

分类专栏：机器学习基石文章标签：机器学习

本文链接：https://blog.csdn.net/buwei0239/article/details/78181431

版权

机器学习基石专栏收录该内容

12 篇文章 0 订阅

订阅专栏

4-1:Feasibility Of Learning

机器学习的可行性，可能有一个很upset的事情是机器学习可能是不行的，为什么？因为你能确保在数据Data中g满足要求，但是数据外或者进行预测呢？g可能和实际的f差很远。

4-2:Probability to the rescue

补救是有可能性的。
在概率论与数理统计中中，我们做过用样本估计总体的试验，假设有一罐球，如下图所示：
这里写图片描述
罐子里有绿色和橙色两种玻璃球，假设橙色球的比例是u，那么绿色球的比例肯定是1-u，那么我们如何确定u的数值大小呢？
我们从罐子里取出一堆球，统计橙色球的比例并记为v，那么我们可以用v来近似代替u，因为罐子是被搅拌过的，随机抽取的球满足一般性，可以用样本估计总体。
或者从另外一个角度，即由Hoeffding’s Inequality(霍夫丁不等式)来定量的进行分析。公式如下：
$p\left[|v-u|>\xi\right]\leq2exp(-2\xi^2N)$
从公示可以看出，随着样本数目N的增多，p变得越来越小，随着 $\xi$ 的增大，p的概率也越来越小，表明v和u的差距越大，概率越小，由Hoeffding’s Inequality可以得出，v和u是相等的这一事件是PAC(Probably Approximately Correct)大概对的。并且N足够大时， $u\approx v$ 。

4-3:Connection to Learning

上一节中罐子小球和机器学习的关系对比如下表：

bin(罐子)	ML
未知橙色小球比例u	假设h(x)是否等于目标f(x)
抽取的样本 $\in罐子$	输入数据x $\in$ 总体数据集X
橙色小球	h(x)是错误的即h(x) $\neq$ f(x)
绿色小球	h(x)是正确的即h(x) $=$ f(x)
N个样本是从罐子里抽取的	输入数据集是从总体数据集随机抽取的

由对比可以看出， $v=\frac{1}{N}\sum_{n=1}^N[h(x)\neq f(x)]$ 以及这里写图片描述
我们引入两个记号 $E_{in}$ 和 $E_{out}$ 分别代表样本错误率和整个输入数据集的错误率,对于固定的hypothesis，其中， $E_{in}(h)=\frac{1}{N}\sum_{n=1}^N[h(x)\neq f(x)]$

$E_{out}$ 是未知的，但是 $E_{in}$ 是已知的，由Hoeffding’s Inequality得知，我们可以用 $E_{in}$ 来估计 $E_{out}$ ，即 $p\left[|E_{in}-E_{out}|>\xi\right]\leq2exp(-2\xi^2N)$ ，并且当N很大时， $E_{in}$ 和 $E_{out}$ 相等的事件是PAC的。

4-4:Connection to Real Learning

通过第三节，我们可以用 $E_{in}$ 来估计 $E_{out}$ ，那么就是要找到一个hypothesis使得 $E_{in}$ 很小，这样子就会使得 $E_{out}$ 错误率更低，h和f在整个输入空间就会越接近。但是事实上这样子做会出现问题。
我们以抛硬币为例进行说明，假设有150个人抛硬币，每个人连续抛5次，则一个人抛到5次正面的概率是 $\frac{1}{32}$ ，那么至少有一个人抛到全部正面的概率是 $p=1-(\frac{1}{32})^{150}>0.99$ 的，那么如果选到了5次全正面的那个人作为sample，也就是相当于选到了bad data(坏的数据)，然后就会说我的 $E_{in}=0$ 啊，但是实际上 $E_{out}=\frac{1}{32}$ ，这样子是 $E_{in}$ 和 $E_{out}$ 就差的比较大。为什么会出现这种情况呢？
Hoeffding’s Inequality告诉我们的是抽到坏数据的概率很小，如下图中：
这里写图片描述
如果单个假设来看，抽到坏数据的可能性确实特别小，但是当hypothesis增多时，就像150个人抛硬币，最后抽到一个人5次正面朝上的概率>0.99，下面计算一下这个概率：

因此，如果|H|=M有限且N足够大的情况下，可以确保无论哪个空间都有 $E_{out}\approx E_{in}$ 。如果通过算法找到g，使得 $E_{in}(g)=0$ ,那么根据PAC，相应的 $E_{out}(g)=0$