1.1 版本空间
答:一共有7种。
因为所有的好瓜坏瓜分别只有一种,所以可以由最特殊的逐步“泛化”,只要不是全部为*就不会出错。同时存在好瓜的样本,则一定不是空集。
1. 青绿^蜷曲^浊响=好瓜
2. *^蜷曲^浊响=好瓜
3. 青绿^ * ^浊响=好瓜
4. 青绿^蜷曲^ * =好瓜
5. 青绿^ * ^ * =好瓜
6. * ^蜷曲^ * =好瓜
7. * ^ * ^浊响=好瓜
1.2估算假设空间大小
答:首先单个合取式有3*4*4=49种;
这里要说明一下,数据是完全按照表1.1进行计算,在表1.1中,色泽只有青绿和乌黑,不考虑下文中作者的假设中包含的浅白。如果考虑浅白,则这里答案4*4*4+1=65种。
在不考虑任何冗余的情况下,是一个简单的组合问题,从49中选择1/2/3/…/k个的组合之和。
考虑冗余,= =好难。
1.3偏好设计
首先有可能不存在与所有训练样本都一致的假设,也就意味着出现了特征完全一样但是label不一样。具体来说就是,只要没有出现【特征一样label不一样】的情况,最少能找到一个唯一的限定的假设。比如拿西瓜来说,不管数据怎样,只要没有矛盾的数据,我们可以把每种情况都列出来作为最终假设。
下面是我的一些偏好:
1. 谨慎。对于出现训练样本特征一样label不一致的,则把所有不一致数据都作为不可用数据。
2. 乐观。对于不一致的则认为是【好瓜】。
3. 悲观。【坏瓜】
1.4证明
答:之前是严格的true or false,如果h(x)=f(x)则认为没有误差,一旦不相等则记为一次误差。这里用l()函数,可以认为l是一个度量h(x)与f(x)之间差距的函数。证明过程略了,数学功底不够。
1.5机器学习在互联网搜索哪些环节起作用
答:预测输入,输入匹配,网页匹配度,智能抓取,预加载,网页排序。