[机器学习基石]台大林轩田笔记4 -- Feasibility of Learning

一、Learning is Impossible(13min)

上一次学习到了我们有哪些学习方式,这一次我们看看机器学习的一些特殊问题。
在这里插入图片描述
对于下面两组图片,我们看到有+1和-1两种分类,现在我们脑袋里面想一个假设g,看看新图片是属于哪一类?
在这里插入图片描述
我们可以先想到是否有对称,但是还有一种情况,左上角是否是白色。当然了还有很多规则。可以感觉到好像学习是不可行的。
在这里插入图片描述
我们再看一个简单的分类问题。看看g是否能接近f。我们可以使用PLA。
在这里插入图片描述
不同的 h y p o t h e s i s hypothesis hypothesis表现有好有坏。在已知数据 D D D上, g ≈ f g≈f gf;但是在D以外的未知数据上, g ≈ f g≈f gf不一定成立。
在这里插入图片描述
在这里插入图片描述
习题1 选择4 qaq没有标准答案 网络上答案是2
在这里插入图片描述
这里上面的例子告诉我们,我们想要在D以外的数据中更接近目标函数似乎是做不到的,只能保证对D有很好的分类结果。机器学习的这种特性被称为没有免费午餐(No Free Lunch)定理。

二、Probability to the Rescue(11min)

拿一个弹珠是橘色的比例。
在这里插入图片描述
我们有没有办法推测一下橘色弹珠的比例。我们先取样
在这里插入图片描述
在这里插入图片描述
抽完样本后我们一定能百分百确定一个结论吗。答案是否定的。
在这里插入图片描述
从概率角度,我们这样解决问题是可行的。下面我们从数学上来推到这个问题。已知u是罐子里橙色球的比例,v是N个抽取的样本中橙色球的比例。当N足够大的时候,v接近于u。这就是Hoeffding’s inequality:
在这里插入图片描述
我们可以发现在Hoeffding不等式中当N很大的时候,v与u相差不会很大,它们之间的差值被限定在ϵ之内。我们把结论v=u称为probably approximately correct(PAC)。
在这里插入图片描述
习题2 选择3
在这里插入图片描述

三、Connection to Learning

连接以上问题和机器学习问题。机器学习中hypothesis与目标函数相等的可能性,类比于罐子中橙色球的概率问题;罐子里的一颗颗弹珠类比于机器学习样本空间的x;橙色的弹珠类比于h(x)与f不相等;绿色的弹珠类比于h(x)与f相等;从罐子中抽取的N个球类比于机器学习的训练样本D,且这两种抽样的样本与总体样本之间都是独立同分布的。
参考:台湾大学林轩田机器学习基石课程学习笔记4 – Feasibility of Learning
在这里插入图片描述
从始至终,我们最关心的问题就是g和f的关系。
在这里插入图片描述
这里我们引入两个值 E i n ( h ) E_{in}(h) Ein(h) E o u t ( h ) E_{out}(h) Eout(h) E i n ( h ) E_{in}(h) Ein(h)表示在抽样样本中, h ( x ) h(x) h(x) y n y_n yn不相等的概率; E o u t ( h ) ) E_{out}(h)) Eout(h))表示实际所有样本中, h ( x ) h(x) h(x) f ( x ) f(x) f(x)不相等的概率是多少。
同样这里的Hoeffding’s inequality可以表示为:
在这里插入图片描述
该不等式表明, E i n ( h ) = E o u t ( h ) E_{in}(h)=E_{out}(h) Ein(h)=Eout(h)也是PAC的。这里我们就不是学习过程,而是一个验证过程。
在这里插入图片描述
习题3 选择2
在这里插入图片描述

四、Connection to Real Learning

现在我们有m个hypothesis,那么我们该选哪一个呢。
在这里插入图片描述
这里我们有1个铜板,扔150次。一个人连续5次硬币都是正面朝上
在这里插入图片描述
那么其中至少有一个人连续5次硬币都是正面朝上的概率是
1 − ( 31 32 ) 1 50 ≥ 99 1-(\frac{31}{32})^150\ge99% 1(3231)15099
这里我们的Hoeffding公式是
在这里插入图片描述
Hoeffding告诉我们一行行bad加起来概率很低
在这里插入图片描述

很多时候,这里即使是事件的概率很大,但是也不能完全说抽到全是绿色时候那个罐子就全是绿色球。这里根据多次抽样的数据集表示大多数的D都是比较好的,但是也可能出现Bad Data。即 E i n E_{in} Ein E o u t E_{out} Eout差别很大的数据集D,是小概率事件。
在这里插入图片描述
这里我们的hypothesis个数m是有限的,而N足够大,那么通过演算法A任意选择一个矩g,都有 E i n ≈ E o u t E_{in}≈E_{out} EinEout成立;同时,如果找到一个矩g,使 E i n ≈ 0 E_{in}≈0 Ein0,PAC就能保证 E o u t ≈ 0 E_{out}≈0 Eout0。至此,就证明了机器学习是可行的。
在这里插入图片描述
习题4 选择1
在这里插入图片描述

总结

在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值