机器学习的可行性

最新推荐文章于 2021-03-14 11:54:05 发布

丁磊_Ml

最新推荐文章于 2021-03-14 11:54:05 发布

阅读量883

点赞数 2

分类专栏：机器学习--林轩田机器学习--台大林轩田文章标签：机器学习的可行性

本文链接：https://blog.csdn.net/MosBest/article/details/52093504

版权

机器学习--林轩田同时被 2 个专栏收录

20 篇文章 3 订阅

订阅专栏

机器学习--台大林轩田

20 篇文章 7 订阅

订阅专栏

no free lunch

这里写图片描述
从以上6个图片里看看，第七个图片应该是什么类型？？
如果我说规律是，左上角有黑块的标签为-1，否则为1，那么g（x）=-1,但是如果我说图形不对称的为-1，对称的为1 ，那么我说g(x)=1.
所以，不管我们的答案是什么，都有另一个解释说我的答案是错误的。
即在没有任意的前提（假设，也就是所谓的附加条件）的话，我们是不能找到一个模型正确的吧第七个图形分类的。
这里写图片描述
再一个例子，给你5个样本（如上图），请你预测出剩下的3个输入值对应的标签。

如上图，很显然，即使我们让模型完全记住5个样本，我们剩下8种情况要挑选。但是，如果什么都不告诉我们，仅仅就给5个样本去模拟的话，我们是无法从8个里面挑选最正确的g与正在的f 相近的。

所以，得出结论，当仅仅给我们数据D，而没有任何假设，任何前提的话（即我们不知道真正的f的任何信息的话），用D学习到的模型去预测数据D外的数据，得到结果一定是很差的。
这里写图片描述

很大的几率 U=V

用概率营救

这里写图片描述
假设我们有一个装满橘色和绿色弹珠的罐子，弹珠多的我们无法去数。我们想知道橘色弹珠占有的比例！
那我们该怎么做？我们会抓一把，看看这一把的弹珠里橘色的比例。但是这一定就是正确的吗？不一定。但是我们可以说有很大的概率二者是相似的。因为有可能抓到全是绿色的情况，但是全是绿色的概率很小。

Hoeffding （霍夫丁）不等式

这里写图片描述
我们假设罐子里有u个橘色弹珠，抓出来的样本有v个橘色的弹珠。
那么在大样本（N large）的情况下，有

即在大样本的情况下，N就很大。那么|v-u|> $\epsilon$ 的概率就很小，即u和v就很接近。
所以，在大样本的情况下，v=u 我们可以说大概差不多是对的（PAC）这里写图片描述
probably :大概，即取到极端的情况（全是绿色）的概率很小
approximately:差不多，即 v 几乎接近u，比如u=100，那么v为99，98

所以在大样本（N large）的情况下，我们有很大的概率去用v表示u.

与机器学习的联系(h能否接近f)

这里写图片描述
$h(x_n)$ 为我们估计的模型，f是最正确的模型。 $（x_n,y_n）$ 是样本N。
在大样本N,且 $x_n$ 是独立同分布的抽取时,我们大概可以用样本的[ $h(x_n)\neq y_n$ ] 的多少来推断出[ $h(x_n)\neq f(x)$ ]。即用 $h(x_n)$ 与 $y_n$ 的正确率,推断出 $h$ 与f的相似度。（这里，我们就认为上面的v就表示【 $h(x)\neq y_n$ 】,上面的u就表示【 $h(x)\neq f(x)$ 】）
这里写图片描述

$E_{in}(h)$ 表示样本的错误率
$E_{out}(h)$ 表示样本外的错误率
依据上图式子，在大样本的情况下：

所以如果 $E_{in}(h)$ 小，那么很大概率 $E_{out}(h)$ 也小。那么在数据都服从同一分布的情况下,h $\approx$ f
这里写图片描述
说了这么多，以上只是验证函数h能否接近f。

但是当H有很多的h时该怎么办呢？？

我们以上说的都在一个h的情况，那如果有很多的h呢？？
我们知道，根据hoeffding 不等式这里写图片描述在大样本的情况下，很大的概率有 $E_{in}\approx E_{out}$ 。因此也有很小的一部分概率使得 $E_{in}$ 很小，但是 $E_{out}$ 很大。这是我们不想看到的，可以证明当H内h的个数增加的时候，这种情况的概率将大大增加。
以投硬币为例。当只有一个人投时，投5次全是正面的概率为 $\frac{1}{32}$ 。但是当有150个人投硬币，每人投5次，有一次全是正面的概率为这里写图片描述，即当人数增加到150人时，犯错误的概率既然超过了90%。
我们类比一下，每一个人相当于每一个h，5次全是正面的情况相当于我用样本得到的 $E_{in}$ 与真实的 $E_{out}$ 不符合，那么我们就说这些样本是BAD sample。

# 我们现在证明的是机器学习的可行性，即我用机器学习算法拟合样本数据，得到的模型是不是和f差不多，差不多其实就是$E_{in}\approx E_{out}$。我们希望的是对于任意的模型，任意的h，都有$E_{in}\approx E_{out}$。所以 $E_{in}$与真实的$E_{out}$不符合 表示出问题的是样本数据，而不是模型h

可是，在真实的机器学习实践中，h不是都很多嘛？？那不是意味着BAD sample 出现的概率会很大很大，即 $E_{in}$ 与真实的 $E_{out}$ 不符合的概率不是会很大很大，那机器学习不是不可行的吗？？？