假设空间
归纳从特殊到一般,“从样例中学习”也叫做“归纳学习”
演绎从一般到特殊
归纳学习有狭义和广义之分,广义的归纳学习大体相当于从样例中学习,而狭义的归纳学习则要求从训练数据中学得概念,也称为概念学习。
概念学习最基本的是布尔概念学习,即对“是”“不是”这样的可表示为0/1布尔值的目标概念的学习。
学习的过程是一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设,即能够将训练集中的样例判断正确的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。
现实问题中我们面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,称之为版本空间。
归纳偏好
在假设空间中与训练集一致的假设可能存在多个,但是算法必须产生一个模型,这时,学习算法的本身的“偏好”就会起到关键的作用。机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好或者偏好。
机器学习算法必须有其偏好,否则,当预测时每次就不能产生同样的结果,如二分类时而预测0时而预测1,这样的算法没有意义。
归纳偏好可看作是算法自身在一个很庞大的假设空间中对假设进行选择的启发式或价值观。
奥卡姆剃刀:若有多个假设与观察一致,则选择最简单的那个
没有免费午餐(NFL) 无论算法A多聪明,算法B多笨拙,它们的期望性能相同。NFL的前提是所有“问题”出现的机会相同,或所有的问题同等重要。但现实情况是,我们只关注我们正在解决的问题,希望为它找到一个解决方案,至于这个方案在其他问题中表现如何,我们并不关心。
NFL告诉我们脱离具体问题,空谈什么算法最好毫无意义。