一、Learning is Impossible(13min)
上一次学习到了我们有哪些学习方式,这一次我们看看机器学习的一些特殊问题。
对于下面两组图片,我们看到有+1和-1两种分类,现在我们脑袋里面想一个假设g,看看新图片是属于哪一类?
我们可以先想到是否有对称,但是还有一种情况,左上角是否是白色。当然了还有很多规则。可以感觉到好像学习是不可行的。
我们再看一个简单的分类问题。看看g是否能接近f。我们可以使用PLA。
不同的
h
y
p
o
t
h
e
s
i
s
hypothesis
hypothesis表现有好有坏。在已知数据
D
D
D上,
g
≈
f
g≈f
g≈f;但是在D以外的未知数据上,
g
≈
f
g≈f
g≈f不一定成立。
习题1 选择4 qaq没有标准答案 网络上答案是2
这里上面的例子告诉我们,我们想要在D以外的数据中更接近目标函数似乎是做不到的,只能保证对D有很好的分类结果。机器学习的这种特性被称为没有免费午餐(No Free Lunch)定理。
二、Probability to the Rescue(11min)
拿一个弹珠是橘色的比例。
我们有没有办法推测一下橘色弹珠的比例。我们先取样
抽完样本后我们一定能百分百确定一个结论吗。答案是否定的。
从概率角度,我们这样解决问题是可行的。下面我们从数学上来推到这个问题。已知u是罐子里橙色球的比例,v是N个抽取的样本中橙色球的比例。当N足够大的时候,v接近于u。这就是Hoeffding’s inequality:
我们可以发现在Hoeffding不等式中当N很大的时候,v与u相差不会很大,它们之间的差值被限定在ϵ之内。我们把结论v=u称为probably approximately correct(PAC)。
习题2 选择3
三、Connection to Learning
连接以上问题和机器学习问题。机器学习中hypothesis与目标函数相等的可能性,类比于罐子中橙色球的概率问题;罐子里的一颗颗弹珠类比于机器学习样本空间的x;橙色的弹珠类比于h(x)与f不相等;绿色的弹珠类比于h(x)与f相等;从罐子中抽取的N个球类比于机器学习的训练样本D,且这两种抽样的样本与总体样本之间都是独立同分布的。
参考:台湾大学林轩田机器学习基石课程学习笔记4 – Feasibility of Learning
从始至终,我们最关心的问题就是g和f的关系。
这里我们引入两个值
E
i
n
(
h
)
E_{in}(h)
Ein(h)和
E
o
u
t
(
h
)
E_{out}(h)
Eout(h)。
E
i
n
(
h
)
E_{in}(h)
Ein(h)表示在抽样样本中,
h
(
x
)
h(x)
h(x)与
y
n
y_n
yn不相等的概率;
E
o
u
t
(
h
)
)
E_{out}(h))
Eout(h))表示实际所有样本中,
h
(
x
)
h(x)
h(x)与
f
(
x
)
f(x)
f(x)不相等的概率是多少。
同样这里的Hoeffding’s inequality可以表示为:
该不等式表明,
E
i
n
(
h
)
=
E
o
u
t
(
h
)
E_{in}(h)=E_{out}(h)
Ein(h)=Eout(h)也是PAC的。这里我们就不是学习过程,而是一个验证过程。
习题3 选择2
四、Connection to Real Learning
现在我们有m个hypothesis,那么我们该选哪一个呢。
这里我们有1个铜板,扔150次。一个人连续5次硬币都是正面朝上
那么其中至少有一个人连续5次硬币都是正面朝上的概率是
1
−
(
31
32
)
1
50
≥
99
1-(\frac{31}{32})^150\ge99%
1−(3231)150≥99
这里我们的Hoeffding公式是
Hoeffding告诉我们一行行bad加起来概率很低
很多时候,这里即使是事件的概率很大,但是也不能完全说抽到全是绿色时候那个罐子就全是绿色球。这里根据多次抽样的数据集表示大多数的D都是比较好的,但是也可能出现Bad Data。即
E
i
n
E_{in}
Ein和
E
o
u
t
E_{out}
Eout差别很大的数据集D,是小概率事件。
这里我们的hypothesis个数m是有限的,而N足够大,那么通过演算法A任意选择一个矩g,都有
E
i
n
≈
E
o
u
t
E_{in}≈E_{out}
Ein≈Eout成立;同时,如果找到一个矩g,使
E
i
n
≈
0
E_{in}≈0
Ein≈0,PAC就能保证
E
o
u
t
≈
0
E_{out}≈0
Eout≈0。至此,就证明了机器学习是可行的。
习题4 选择1