例子,给出西瓜数据集,根据某个西瓜三个属性的描述,判断瓜的好坏
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 清脆 | 是 |
3 | 青绿 | 硬挺 | 沉闷 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
样本空间
以样本的属性为坐标轴张成的多维空间,也叫属性空间、输入空间。
上例中,每行样本包含三个属性:色泽、根蒂、敲声,则可以以这三个属性为坐标轴,生成一个三维空间,每个西瓜(只要用这三种属性描述)都能在该空间中找到其对应的坐标位置。
假设空间
上例中,假设空间由形如 “(色泽=?) ∧ (根蒂=?) ∧ (敲声=?)” 的所有假设组成。
如果属性色泽、根蒂、敲声分别有3 、2 、2种可能取值,还要考虑到一种属性可能无论取什么值都合适(用通配符*表示),另外有一种情况就是好瓜这个概念根本不成立(用∅表示),则假设空间大小为 (3 + 1)×(2 + 1)×(2 + 1)+ 1 = 37 。
假设空间部分如下,
1 色泽=*,根蒂=*,敲声=*
2 色泽=青绿,根蒂=*,敲声=*
3 色泽=乌黑,根蒂=*,敲声=*
4 色泽=*,根蒂=蜷缩,敲声=*
5 色泽=*,根蒂=硬挺,敲声=*
…
36 色泽=乌黑,根蒂=稍蜷,敲声=*
37 Ø
学习过程就是,从假设空间不断删除与正例不一致或者与反例一致的假设,最终得到对所有训练样本能进行正确判断的假设,这样我们最后就可以得到一组形如 “色泽=? ∧ 根蒂=? ∧ 敲声=? ⇔ 好瓜 ” 的概念作为学习结果。
版本空间
因为训练样本数量有限,假设空间含有很多假设,最终筛选后有可能剩下多个假设是符合训练样本的,这些剩下的假设组成的集合就称为版本空间。
版本空间的例子