机器学习周志华第一章习题_表1.1中若只包含编号为1和4两个样例,试给出相应的版本空间。-CSDN博客

本文链接：https://blog.csdn.net/cracker180/article/details/78778306

1.表1.1中若只包含编号为1，4的两个样例，试给出相应的版本空间。

假设数据集有n种属性，第i个属性可能的取值有ti种，加上该属性的泛化取值(*)，所以可能的假设有
$\prod\_{i}(t\_i+1)$
再用空集表示没有正例，假设空间中一共 $\prod_{i}(t_i+1)+1$ 种假设。
现实问题中常面临很大的假设空间，我们可以寻找一个与训练集一致的假设集合，称之为版本空间。版本空间从假设空间剔除了与正例不一致和与反例一致的假设，它可以看成是对正例的最大泛化。
版本空间的可以通过搜索假设空间来得到，这样需要遍历完整的假设空间。如果数据集中有正例，则可以先对一个正例进行最大泛化，得到2n个假设，然后再对这些假设进行剔除操作，可以适当精简计算量。
西瓜数据集（精简）

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	稍蜷	沉闷	否

数据集有3个属性，每个属性2种取值，一共 3∗3∗3+1=28种假设，分别为

1.色泽=青绿 根蒂=蜷缩 敲声=浊响  
2.色泽=青绿 根蒂=蜷缩 敲声=沉闷  
3.色泽=青绿 根蒂=稍蜷 敲声=浊响  
4.色泽=青绿 根蒂=稍蜷 敲声=沉闷  
5.色泽=乌黑 根蒂=蜷缩 敲声=浊响  
6.色泽=乌黑 根蒂=蜷缩 敲声=沉闷  
7.色泽=乌黑 根蒂=稍蜷 敲声=浊响  
8.色泽=乌黑 根蒂=稍蜷 敲声=沉闷  
9.色泽=青绿 根蒂=蜷缩 敲声=\*  
10.色泽=青绿 根