1.3 假设空间
在科学推理中,归纳(induction)和演绎(deduction)是两大基本手段。归纳从具体的事实中总结出一般性规律,而演绎则从一般原理推演出具体状况。在机器学习中,“从样例中学习”显然是一个归纳的过程,因此也称为“归纳学习”(inductive learning)。
归纳学习的分类
归纳学习可以分为广义与狭义两种。广义的归纳学习指从样例中学习,而狭义的归纳学习则更为具体,要求从训练数据中学得概念(concept),因此也被称为“概念学习”或“概念形成”。概念学习中,技术的研究与应用较少,原因在于要学得具有良好泛化能力且语义明确的概念是非常困难的。然而,了解概念学习的基础思想有助于更好地理解机器学习的原理。
布尔概念学习
在概念学习中,最基本的形式是布尔概念学习,即对“是”或“不是”这样的目标概念进行学习。比如表1.1所示的训练数据集,目标是学习什么样的瓜是“好瓜”。假设“好瓜”由“色泽”、“根蒂”、“敲声”这三个属性确定,那么我们就可以根据它们的取值判断一个瓜是否是好瓜。
表1.1 西瓜数据集
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
假设空间的表示
在学习过程中,我们可以将学习过程看作是在一个由所有假设(hypothesis)组成的空间中进行搜索。假设空间的目标是找到与训练数据“匹配”的假设,亦即能够正确分类训练集中样例的假设。比如在西瓜问题中,“色泽”、“根蒂”、“敲声”分别有不同的取值,因此假设空间的规模大小为 4 × 3 × 3 + 1 = 37。图1.1展示了这个假设空间。
在实际操作中,我们可以使用不同的策略对假设空间进行搜索,例如从一般到特殊,或从特殊到一般。在这个过程中,我们可以逐步删除与正例不一致的假设,最终获得与训练集一致的假设集合,这个集合被称为“版本空间”(version space)。例如,图1.2展示了与表1.1训练集相对应的版本空间。
图1.1 假设空间示意图
图1.1展示了所有可能的假设组合,例如不同的色泽、根蒂和敲声的组合。
图1.2 版本空间示意图
图1.2展示了与训练集一致的假设组合,这些假设都能够正确判断表1.1中的样例。
假设空间搜索策略
在假设空间中进行搜索时,我们可以采用多种策略。例如,从一般到特殊的搜索策略意味着我们首先考虑最广泛的假设,然后逐步缩小范围,直到找到与训练集一致的假设。而从特殊到一般的策略则是从最具体的假设开始,逐步扩大假设的范围。
在这个过程中,我们可以不断删除与正例不一致的假设,或者与反例一致的假设,最终得到一个与训练集完全一致的假设集合。这些与训练集一致的假设形成了所谓的“版本空间”。
总结
通过对假设空间的学习,我们希望最终获得一个具有良好泛化能力的模型,能够对未见过的样例做出正确的判断,而不仅仅是“记住”训练集中的样例。这种学习方式可以帮助我们建立一个强泛化能力的模型,处理更多的未见过的情况,并在实际应用中表现出色。