下面是自己结合百度的资料来理解的一些比较通俗的说法:
假设空间:属性所有可能取值组成的可能的样本
版本空间:与已知数据集一致的所有假设的子集集合。
(绿色加号代表正类样本,红色小圈代表负类样本)
GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary),;
SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)
GB与SB之间所围成的区域就是版本空间。
----->总结:
在西瓜问题中,如何根据训练集求所对应的版本空间?
①写出假设空间:先列出所有可能的样本点(即特征向量)(即每个属性都取到所有的属性值)
②对应着给出的已知数据集,将与正样本不一致的、与负样本一致的假设删除。
即可得出与训练集一致的假设集合,也就是版本空间了。
----->举例: