[机器学习基石]台大林轩田笔记4 -- Feasibility of Learning

最新推荐文章于 2019-10-11 20:59:51 发布

置顶 gdtop818

最新推荐文章于 2019-10-11 20:59:51 发布

阅读量336

点赞数

分类专栏：机器学习基石機器學習基石文章标签： machine learning

本文链接：https://blog.csdn.net/weixin_37993251/article/details/85254310

版权

机器学习基石同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

機器學習基石

5 篇文章 1 订阅

订阅专栏

一、Learning is Impossible（13min）

上一次学习到了我们有哪些学习方式，这一次我们看看机器学习的一些特殊问题。
在这里插入图片描述
对于下面两组图片，我们看到有+1和-1两种分类，现在我们脑袋里面想一个假设g，看看新图片是属于哪一类？

我们可以先想到是否有对称，但是还有一种情况，左上角是否是白色。当然了还有很多规则。可以感觉到好像学习是不可行的。
在这里插入图片描述
我们再看一个简单的分类问题。看看g是否能接近f。我们可以使用PLA。

不同的 $h y p o t h e s i s$ 表现有好有坏。在已知数据 $D$ 上， $g \approx f$ ；但是在D以外的未知数据上， $g \approx f$ 不一定成立。

习题1 选择4 qaq没有标准答案网络上答案是2
在这里插入图片描述
这里上面的例子告诉我们，我们想要在D以外的数据中更接近目标函数似乎是做不到的，只能保证对D有很好的分类结果。机器学习的这种特性被称为没有免费午餐（No Free Lunch）定理。

二、Probability to the Rescue（11min）

拿一个弹珠是橘色的比例。
在这里插入图片描述
我们有没有办法推测一下橘色弹珠的比例。我们先取样

抽完样本后我们一定能百分百确定一个结论吗。答案是否定的。

从概率角度，我们这样解决问题是可行的。下面我们从数学上来推到这个问题。已知u是罐子里橙色球的比例，v是N个抽取的样本中橙色球的比例。当N足够大的时候，v接近于u。这就是Hoeffding’s inequality：
在这里插入图片描述
我们可以发现在Hoeffding不等式中当N很大的时候，v与u相差不会很大，它们之间的差值被限定在ϵ之内。我们把结论v=u称为probably approximately correct(PAC)。

习题2 选择3

三、Connection to Learning

连接以上问题和机器学习问题。机器学习中hypothesis与目标函数相等的可能性，类比于罐子中橙色球的概率问题；罐子里的一颗颗弹珠类比于机器学习样本空间的x；橙色的弹珠类比于h(x)与f不相等；绿色的弹珠类比于h(x)与f相等；从罐子中抽取的N个球类比于机器学习的训练样本D，且这两种抽样的样本与总体样本之间都是独立同分布的。
参考：台湾大学林轩田机器学习基石课程学习笔记4 – Feasibility of Learning
在这里插入图片描述
从始至终，我们最关心的问题就是g和f的关系。

这里我们引入两个值 $E_{in}(h)$ 和 $E_{out}(h)$ 。 $E_{in}(h)$ 表示在抽样样本中， $h (x)$ 与 $y_n$ 不相等的概率； $E_{out}(h))$ 表示实际所有样本中， $h (x)$ 与 $f (x)$ 不相等的概率是多少。
同样这里的Hoeffding’s inequality可以表示为：
在这里插入图片描述
该不等式表明， $E_{in}(h)=E_{out}(h)$ 也是PAC的。这里我们就不是学习过程，而是一个验证过程。

习题3 选择2

四、Connection to Real Learning

现在我们有m个hypothesis，那么我们该选哪一个呢。
在这里插入图片描述
这里我们有1个铜板，扔150次。一个人连续5次硬币都是正面朝上

那么其中至少有一个人连续5次硬币都是正面朝上的概率是
$1-(\frac{31}{32})^150\ge99%$
这里我们的Hoeffding公式是

Hoeffding告诉我们一行行bad加起来概率很低
在这里插入图片描述

很多时候，这里即使是事件的概率很大，但是也不能完全说抽到全是绿色时候那个罐子就全是绿色球。这里根据多次抽样的数据集表示大多数的D都是比较好的，但是也可能出现Bad Data。即 $E_{in}$ 和 $E_{out}$ 差别很大的数据集D，是小概率事件。
在这里插入图片描述
这里我们的hypothesis个数m是有限的，而N足够大，那么通过演算法A任意选择一个矩g，都有 $E_{in}≈E_{out}$ 成立；同时，如果找到一个矩g，使 $E_{in}≈0$ ，PAC就能保证 $E_{out}≈0$ 。至此，就证明了机器学习是可行的。
在这里插入图片描述
习题4 选择1

总结

在这里插入图片描述

gdtop818

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
[机器学习基石]台大林轩田笔记4 -- Feasibility of Learning

一、Learning is Impossible（13min）上一次学习到了我们有哪些学习方式，这一次我们看看机器学习的一些特殊问题。对于下面两组图片，我们看到有+1和-1两种分类，现在我们脑袋里面想一个假设g，看看新图片是属于哪一类？我们可以先想到是否有对称，但是还有一种情况，左上角是否是白色。当然了还有很多规则。可以感觉到好像学习是不可行的。我们再看一个简单的分类问题。看看g是否...
复制链接

扫一扫

专栏目录