机器学习(周志华)习题解答1.1-1.3: 理解假设和版本空间

这篇文章转自http://blog.csdn.net/thither_shore/article/details/52311282

是对周志华的《机器学习》的习题解答,为方便之后查看,记录如下~

习题 1.1 若表 1.1 只包含 1 和 4 两个样例,试给出相应的样本空间。已知色泽有两种取值,根蒂和敲声分别有三种取值。 

表 1.1 西瓜数据集

编号 色泽 根蒂 敲声 好瓜
1 青绿 蜷缩 浊响
2 乌黑 蜷缩 浊响
3 青绿 硬挺 清脆
4 乌黑 稍蜷 沉闷

  首先说明概念1版本空间(version space)是概念学习中与已知数据集一致的所有假设(hypothesis)的子集集合。即是版本空间假设空间中于样本满足一致的“假设集合”, 是基于样本决定的。

Noisy OR CPD
   GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary); 
   SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary)。
 
  对于二维空间中的“矩形”假设(如图),绿色代表正例,红色代表负例。学习过程中,可以 不断删除与正例不一致的假设、和(或)与反例一致的假设 。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,即学得结果。如图 GB 与 SB 所围成的区域中的矩形即为版本空间。

解答:由于色泽有两种取值,根蒂和敲声分别有三种取值,再各自加上“通配”(即取什么值都无关紧要)这一项,一共是  (2+1)×(3+1)×(3+1)=48  种取值,另外还有一种取值是“好瓜这个概念根本不成立”即空集。故假设空间大小为 48+1=49。现在根据已有样本 1 和 4,可以排除掉假设空间中所有“色泽 青绿”或“根蒂 蜷缩”或“声响 浊响”的项,以及由于有样本 1 即好瓜的存在,排除空集那一项,所以得到的版本空间大小为 8,用合取式表示则是以下 8 种取值: 

绿绿绿绿

习题 1.2   解答 :刚已经分析了有 8 种取值,故假设空间中的假设用析取范式表达形式如下: 
(绿)()()(绿)绿)()(绿)

  其中任意一个取值可以去掉(即去掉取值的约束,从而扩大了结果的空间),比如 
(绿)()
  也是一种假设。但不可将 8 个都去掉,这样对“好瓜”就毫无约束了,这样存在样本 4 是不符的。故 包含以上 8 个合取式中任意非 0 个的析取范式表达式都是合理的假设,即共有  281=255  种假设。如果看到这里还没有完全理解,可以 点击这里看详细列举的 49 个假设取值,然后回过头去理解题 1.1。

习题 1.3 解答:由于含有噪声,故可对样本空间放宽约束。对于那些只与极少数样本不一致却与极大多数样本一致的假设,仍将其保留在版本空间中。


  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值