版本空间是西瓜书第一章中提到的概念,说版本空间之前,首先要了解一下基本概念。
以书中习题1.1为例,数据集为:
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
根据假设空间的定义:是样本的每个属性的可能取值进行组合得到的集合。数据集中样本有三个属性分别为:色泽、根蒂和敲声。色泽的可能值为青绿、乌黑;根蒂的可能值为蜷缩、稍蜷;敲声的可能值为浊响、沉闷。在考虑属性的可能值时还需要考虑到特殊情况, 就是结果与属性无关即无论取什么值都可以,用通配符“*”表示这种情况。还有另一种极端情况就是没有“好瓜”这样的概念,用∅表示这种情况这样就有(2+1)*(2+1)*(2+1)+1=28种。所以假设空间如下:
(01)(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)
(02)(色泽=青绿)^(根蒂=蜷缩)^(敲声=沉闷)
(03)(色泽=青绿)^(根蒂=蜷缩)^(敲声= * )
(04)(色泽=青绿)^(根蒂=稍蜷)^(敲声=浊响)
(05)(色泽=青绿)^(根蒂=稍蜷)^(敲声=沉闷)
(06)(色泽=青绿)^(根蒂=稍蜷)^(敲声= * )
(07)(色泽=青绿)^(根蒂= * )^(敲声=浊响)
(08)(色泽=青绿)^(根蒂= * )^(敲声=沉闷)
(09)(色泽=青绿)^(根蒂= * )^(敲声= * )
(10)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=浊响)
(11)(色泽=乌黑)^(根蒂=蜷缩)^(敲声=沉闷)
(12)(色泽=乌黑)^(根蒂=蜷缩)^(敲声= * )
(13)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=浊响)
(14)(色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷)
(15)(色泽=乌黑)^(根蒂=稍蜷)^(敲声= * )
(16)(色泽=乌黑)^(根蒂= * )^(敲声=浊响)
(17)(色泽=乌黑)^(根蒂= * )^(敲声=沉闷)
(18)(色泽=乌黑)^(根蒂= * )^(敲声= * )
(19)(色泽= * )^(根蒂=蜷缩)^(敲声=浊响)
(20)(色泽= * )^(根蒂=蜷缩)^(敲声=沉闷)
(21)(色泽= * )^(根蒂=蜷缩)^(敲声= * )
(22)(色泽= * )^(根蒂=稍蜷)^(敲声=浊响)
(23)(色泽= * )^(根蒂=稍蜷)^(敲声=沉闷)
(24)(色泽= * )^(根蒂=稍蜷)^(敲声= * )
(25)(色泽= * )^(根蒂= * )^(敲声=浊响)
(26)(色泽= * )^(根蒂= * )^(敲声=沉闷)
(27)(色泽= * )^(根蒂= * )^(敲声= * )
(28)∅
版本空间就是在假设空间中进行搜索,然后删除假设空间中与正例不匹配的假设、或与反例匹配的假设。最终获得的假设集合即为版本空间。下面开始确定版本空间。
1.根据样本可以知道“好瓜”的概念是存在的没所以先删除假设(28)。
2.删除与正例“好瓜”不一致的假设。
根据1号样本,(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)->好瓜为正例,删除与之不匹配的假设:(02)、(04)-(06)、(08)、(10)-(18)、(20)、(22)-(24)、(26)。
此时假设空间为:
(01)(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)
(03)(色泽=青绿)^(根蒂=蜷缩)^(敲声= * )
(07)(色泽=青绿)^(根蒂= * )^(敲声=浊响)
(09)(色泽=青绿)^(根蒂= * )^(敲声= * )
(19)(色泽= * )^(根蒂=蜷缩)^(敲声=浊响)
(21)(色泽= * )^(根蒂=蜷缩)^(敲声= * )
(25)(色泽= * )^(根蒂= * )^(敲声=浊响)
(27)(色泽= * )^(根蒂= * )^(敲声= * )
3.根据2号样本,(色泽=乌黑)^(根蒂=稍蜷)^(敲声=沉闷)->坏瓜为反例,删除与之匹配的假设:(27)。
最后的假设空间为:
(01)(色泽=青绿)^(根蒂=蜷缩)^(敲声=浊响)
(03)(色泽=青绿)^(根蒂=蜷缩)^(敲声= * )
(07)(色泽=青绿)^(根蒂= * )^(敲声=浊响)
(09)(色泽=青绿)^(根蒂= * )^(敲声= * )
(19)(色泽= * )^(根蒂=蜷缩)^(敲声=浊响)
(21)(色泽= * )^(根蒂=蜷缩)^(敲声= * )
(25)(色泽= * )^(根蒂= * )^(敲声=浊响)
此假设空间即为版本空间。