- 版本空间
版本空间:可能存在多个假设与训练集一致,假设的集合称为版本空间,概况说来,版本空间就是从假设空间剔除了与正例不一致和与反例一致的假设,它可以看成是对正例的最大泛化。
假设空间: 所有假设组成的空间,表1.1对应的假设空间的大小为3(*、青绿、乌黑)x4(*、蜷缩、稍蜷、硬挺)x4(*、浊响、清脆、沉闷)+1( ∅ \empty ∅)=49种,其中版本空间为:
- (色泽=青绿;根蒂=*;敲声=*)
- (色泽=*;根蒂=蜷缩*;敲声=*)
- (色泽=*;根蒂=*;敲声=浊响)
- (色泽=青绿;根蒂=蜷缩;敲声=*)
- (色泽=青绿;根蒂=*;敲声=浊响)
- (色泽=*;根蒂=蜷缩;敲声=浊响)
- (色泽=青绿;根蒂=蜷缩;敲声=浊响)
2.析合范式
- 不考虑冗余的情况下
假设空间大小为49,去掉空集,k的最大取值为48,但是48种假设中包含很多冗余,例如三属性泛化就包含了所有的假设。 - 考虑冗余
48种假设中
泛化属性个数 | 种数 |
---|---|
0 | 2x3x3=18 |
1 | 1x3x3+2x1x3+2x3x1= 21 |
2 | 2x1x1+1x3x1+1x1x3=8 |
3 | 1 |
所以
k
>
18
k>18
k>18就存在冗余,所以特征向量是18个,所有假设都可以对应到18个中的某一个,后面的我自己就想不太明白了。
参考
- 涉及归纳偏好
选择满足最多的假设,但是可能是满足噪声多。
舍弃所有相同属性但是不同分类的数据,但是就丢失了部分信息。
相同属性出现了两种不同的分类,则认为它属于与他最临近几个数据的属性 - NFL定理证明
… - 机器学习在互联网搜索中的作用
1.在向搜索引擎提交信息的阶段,能够从提交文本中进行信息提取,进行语义分析。
2.在搜索引擎进行信息匹配的阶段,能够提高问题与各个信息的匹配程度。
3.在向用户展示搜索结果的阶段,能够根据用户对结果感兴趣的程度进行排序。