Machine Learning Foundation Lecuture 05 Training versus Testing 学习笔记

最新推荐文章于 2024-01-22 21:17:07 发布

大肥猴

最新推荐文章于 2024-01-22 21:17:07 发布

阅读量877

点赞数

分类专栏： Machine Learning 文章标签： machine learning

本文链接：https://blog.csdn.net/humozhi1/article/details/18991297

版权

Machine Learning 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

第5讲学习笔记

知识点1：在第4讲中知道只有在H（hypothesis set）数量M有限，N（样本数据量）足够大的情况下，针对某个hypothesis， $E_{in}$ (h) $\approx$ $E_{out}$ (h)的可能性是很大的（即 $E_{in}$ 和 $E_{out}$ 长的很像），不管Learning Alogorithm如何来选择这个hypothesis。这样我们就能找一个 $E_{in}$ (h) $\approx$ 0的hypothesis作为g，这样根据hoeffding不等式 $E_{out}$ (h) $\approx$ 0的可能性也很大（PAC probably approximately correct，就是在满足前面的条件下 $E_{out}$ (h)大概差不多也接近于0）。这里M（hypothesis set的数量）是很重要的，太小，相似的机率很大，但是选择性太少，不能保证g是最好的；太大（无限大），选择性很多，但相似的机率太小，不能保证预测的准确性；但是当M数量很大时，真的 $E_{in}$ 和 $E_{out}$ 的相似的可能性真的很小吗？因为P[Hypothesis setBAD]=P[ $h_{1}$ BAD]+P[ $h_{2}$ BAD]+...+[ $h_{m}$ BAD]，所以我们要考虑P的重叠，以PLA在 $R^{2}$ 为例，PLA的Hypothesis Set的个数有无限多个（可以画无限多条线），如果2条线之间的差异很小，那这2条线的 $E_{in}$ 和 $E_{out}$ 几乎是差不多的，所以我们需要对线进行分类，即有多少条有效的线。如果M是无穷的，但是线的类别是有限的，这样Machine Learning是可行的。

例如：

在 $R^{2}$ 上有1个点，那Hypothesis Set分为2类线，一类是O，另一类是X。

在 $R^{2}$ 上有2个点，那Hypothesis Set分为4类线，(O,O)， (X,X)， (O,X)， (X,O)。

在 $R^{2}$ 上有3个点，那Hypothesis Set最多分为8类线，(O,O,O)， (X,X,X)， (O,O,X)， (X,X,O)， (X,O,O)， (O,X,X)， (X,O,X)， (O,X,O)；如果3点共一线，就分为6类线，少了 (X,O,X)， (O,X,O)。

$R^{2}$ 上有4个点，那Hypothesis Set最多分为14类线；

从上面的例子可以看出Hoeffding不等式中的M，可以替换成有限的Effecitive(N)；公式如下：

知识点2：Dichotomy（二分），即有几种O和X的组合，通俗说就是Data的排列组合的个数。

知识点3：Growth function（成长函数） $m_{H}$ (N) （max number of dichotomy）

我们需要用成长函数m来取代M，如果m是polynomial（多项式）就是好的（坏事发生的机率很小）；如果m是exponential（指数）就是不好的（坏事发生的机率不是很小）。

知识点4：Break Point（停止点），在上面的例子中2个点我们能做出4类线，3个点我们最多能做出8类线，4个点我们最多能做出14类线，这里第4个点就是Break Point，做不出16类线。 $m_{H}$ (K) < ${2}^{k}$ （第一个做不出来的点就是break point）。