第1章的一些易混淆名词解释
注释:只记录一些之前不太清晰的名词解释
泛化能力(generalization)
机器学习的目标是使学习的模型能适用于未在训练集中出现过的样本,泛化能力即为所学模型适用于新样本的能力。
通常我们假设样本空间中的全体样本是独立同分布的(服从于某个分布D)。一般,训练样本越多则得到的关于D的信息越多,越有可能学得强泛化能力的模型。
基于西瓜问题的假设空间与版本空间(version space)辨析
根据表1.1 我们可以对色泽、根蒂、敲声的取值,得到不同的假设。
假设:色泽可以取值有:青绿、乌黑、任意色都可
根蒂可以取值有:蜷缩、硬挺、稍蜷、任意都可
敲声可以取值有:浊响、清脆、沉闷、任意都可
那么这三者综合起来组成的假设有3x4x4=48种,再加上一种情况,好瓜这个概念根本不存在,则总共有48+1=49种可能的假设。49为该假设空间的大小。
而对于课后题1中要求只考虑表1.1的1、4两行的情况下,
我们假设:色泽取值:青绿、乌黑、任意
根蒂取值:蜷缩、稍蜷、任意
敲声取值:浊响、沉闷、任意
该假设空间的规模为3x3x3+1=28
列出所有可能:(任意用0代替)
- 色泽=0,根蒂=0,敲声=0
- 色泽=青绿,根蒂=0,敲声=0
- 色泽=乌黑,根蒂=0,敲声=0
- 色泽=0,根蒂=蜷缩,敲声=0
- 色泽=0,根蒂=稍蜷,敲声=0
- 色泽=0,根蒂=0,敲声=浊响
- 色泽=0,根蒂=0,敲声=沉闷
- 色泽=青绿,根蒂=蜷缩,敲声=0
- 色泽=青绿,根蒂=稍蜷,敲声=0
- 色泽=乌黑,根蒂=蜷缩,敲声=0
- 色泽=乌黑,根蒂=稍蜷,敲声=0
- 色泽=青绿,根蒂=0,敲声=浊响
- 色泽=青绿,根蒂=0,敲声=沉闷
- 色泽=乌黑,根蒂=0,敲声=浊响
- 色泽=乌黑,根蒂=0,敲声=沉闷
- 色泽=0,根蒂=蜷缩,敲声=浊响
- 色泽=0,根蒂=蜷缩,敲声=沉闷
- 色泽=0,根蒂=稍蜷,敲声=浊响
- 色泽=0,根蒂=稍蜷,敲声=沉闷
- 色泽=青绿,根蒂=蜷缩,敲声=浊响
- 色泽=青绿,根蒂=蜷缩,敲声=沉闷
- 色泽=青绿,根蒂=稍蜷,敲声=浊响
- 色泽=青绿,根蒂=稍蜷,敲声=沉闷
- 色泽=乌黑,根蒂=蜷缩,敲声=浊响
- 色泽=乌黑,根蒂=蜷缩,敲声=沉闷
- 色泽=乌黑,根蒂=稍蜷,敲声=浊响
- 色泽=乌黑,根蒂=稍蜷,敲声=沉闷
- 不存在好瓜
现在需要求版本空间。课本上对版本空间的解释为:通过自顶向下或者自底向上对假设空间的搜索,删除与正例不一致的假设、和(或)与反例一致的假设得到所学结果。存在着一个与训练数据集一致的假设集合,称为版本空间。
这里我们在求解版本空间时,需要对列出的假设空间的每一个假设独立看,我们选择留下的假设有两个要求:
1、训练集中的正例都可以根据该假设判断为正(此题中即为是)
2、训练集中的反例都可以根据该假设判断为反(或者负,此题中即为否)
那么我们由训练数据集中的第一行,可以删除假设空间中的3、5、7、9、10、11、13-15、17-19、21-28
由训练数据集中的第四行,可以删除假设空间中的1
剩下的2、4、6、8、12、16、20构成版本空间。