Feasibility of Learning
Learning is Impossible?
我们想要在D以外的数据中更接近目标函数似乎是做不到的,只能保证对D有很好的分类结果。机器学习的这种特性被称为没有免费午餐(No Free Lunch)定理。NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。
Probability to the Rescue
Connection to Learning
下面,我们将罐子的内容对应到机器学习的概念上来。机器学习中hypothesis与目标函数相等的可能性,类比于罐子中橙色球的概率问题;罐子里的一颗颗弹珠类比于机器学习样本空间的x;橙色的弹珠类比于h(x)与f不相等;绿色的弹珠类比于h(x)与f相等;从罐子中抽取的N个球类比于机器学习的训练样本D,且这两种抽样的样本与总体样本之间都是独立同分布的。所以呢,如果样本N够大,且是独立同分布的,那么,从样本中 h ( x ) ≠ f ( x ) ) h(x)\neq f(x)) h(x)̸=f(x))的概率就能推导在抽样样本外的所有样本中 h ( x ) ≠ f ( x ) h(x)\neq f(x) h(x)̸=f(x)的概率是多少。
这里我们引入两个值 E i n ( h E_{in}(h Ein(h)和 E o u t ( h ) E_{out}(h) Eout(h)。 E i n ( h ) E_{in}(h) Ein(h)表示在抽样样本中,h(x)与 y n y_n yn不相等的概率; E o u t ( h ) E_{out}(h) Eout(h)表示实际所有样本中,h(x)与f(x)不相等的概率是多少。
Connection to Real Learning
也就是说,不同的数据集
D
n
D_n
Dn,对于不同的hypothesis,有可能成为Bad Data。只要
D
n
D_n
Dn在某个hypothesis上是Bad Data,那么
D
n
D_n
Dn就是Bad Data。只有当
D
n
D_n
Dn在所有的hypothesis上都是好的数据,才说明
D
n
D_n
Dn不是Bad Data,可以自由选择演算法A进行建模。那么,根据Hoeffding’s inequality,Bad Data的上界可以表示为连级(union bound)的形式:
其中,M是hypothesis的个数,N是样本D的数量,
ϵ
\epsilon
ϵ是参数。该union bound表明,当M有限,且N足够大的时候,Bad Data出现的概率就更低了,即能保证D对于所有的h都有
E
i
n
≈
E
o
u
t
E_{in}\approx E_{out}
Ein≈Eout,满足PAC,演算法A的选择不受限制。那么满足这种union bound的情况,我们就可以和之前一样,选取一个合理的演算法(PLA/pocket),选择使
E
i
n
E_{in}
Ein最小的
h
m
h_m
hm作为g,一般能够保证
g
≈
f
g\approx f
g≈f,即有不错的泛化能力。
所以,如果hypothesis的个数M是有限的,N足够大,那么通过演算法A任意选择一个g,都有 E i n ≈ E o u t E_{in}\approx E_{out} Ein≈Eout成立;同时,如果找到一个g,使 E i n ≈ 0 E_{in}\approx 0 Ein≈0,PAC就能保证 E o u t ≈ 0 E_{out}\approx 0 Eout≈0。至此,就证明了机器学习是可行的。
但是如果M是无数个,例如之前介绍的PLA的直线具有无数条,那么是否这些推论就不成立了呢?
总结
本节课主要介绍了机器学习的可行性。首先引入NFL定理,说明机器学习无法找到一个g能够完全和目标函数f一样。接着介绍了可以采用一些统计上的假设,例如Hoeffding不等式,建立 E i n E_{in} Ein和 E o u t E_{out} Eout的联系,证明对于某个h,当N足够大的时候, E i n E_{in} Ein和 E o u t E_{out} Eout是PAC的。最后,对于h个数很多的情况,只要有h个数M是有限的,且N足够大,就能保证 E i n ≈ E o u t E_{in}\approx E_{out} Ein≈Eout,证明机器学习是可行的。