归纳偏好(inductive bias):机器学习算法在学习过程中对某种类型假设的偏好。
奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选最简单的那一个。
“没有免费的午餐”定理(No Free Lunch Theorem 简称NFL定理)
如上篇文章所讲的,当版本空间或者说模型形成之后,模型中往往存在多个不同的但都符合训练集的假设,然而当面临新的样本时,选择不同的假设,却会产生不同的结果。然而我们不能随机选择假设来处理新样本,否则对于相同的样本,有时输出1有时输出0,而且各自出现的概率是随机的,这显然是没有意义的。这时,我们就需要对模型设置某周偏向,即归纳偏好,如偏向“尽可能特殊”或是“尽可能一般”的假设。
如书中所说的,这种归纳偏好的设置,可以看成是在这个样本空间中,对于假设的一种“价值观取向”。进而产生一个问题,有没有一个普适的价值观来确定这种偏向呢?奥卡姆剃刀就是其中之一,我猜大概是因为他比较简单= =。。。
然而究竟选择怎样的偏好,以得出效果最好的模型,才是我们追求的问题。并不能因为某个偏好简单就去选择。就像是样条插值,平滑度越好就一定越逼近原函数吗,不见得。换言之,实际上在真实目标函数 f 均匀分布的假设下,总误差与学习算法是无关的,这一点的推导在书中有证明,这个博客不太会输入公式,所以此处略去了。证明中不太清楚的一点是,从第二步到第三步的推导,如果说|X|是样本空间的模,为什么累加的总个数会是2的|x|次方呢??望看到的大佬解释一下。
总而言之,无论怎样的机器学习算法,他们的期望都是相同的,这就是“没有免费的午餐”定理。然而我们需要注意到的一点是,这个定理的一个前提即 f 均匀分布,这一点往往是不能保证的,因为我们在面对一个机器学习问题时,往往并非如此,而是只关注一个特定情况下的特定问题,如书中所说的“鼓楼”和“新街口”的交通工具选择问题。
所以其实并不能因为NFL定理而真的认为所有的机器学习算法都一样“好”,而应该说,不能纠结于问题的表面,要具体问题具体分析,就如书中所说:脱离具体问题,空谈“审么学习算法更好”是毫无意义的,要谈论算法的优劣,必须要针对具体的学习问题。所以面对具体的问题,我们应选择同时正确的归纳偏好和正确的学习算法,做到匹配对应,才能得到想要的效果。