西瓜书绪论课后习题(个人练习)

1.1  表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

表1.1 西瓜样本简
编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
4乌黑稍蜷沉闷

解答:

首先,根据表格可知,西瓜样本的每个属性都只有两种具体的属性,然后再加上每个样本属性都可以进行泛化,也就是可以取 * ,则每个属性都有三种取值的可能,那么总的假设空间的可能为:3 * 3 *3 =27(乘法原理);再加上∅的可能,所以,满足题意的总的可能性假设空间一共有27+1 = 28 种;

而样本的版本空间则是指满足好瓜的条件的假设的集合,那么,可以根据乘法原理,好瓜只有一个样本,并且每个属性有两种可能,所以,满足好瓜的假设的可能一共有: 2 * 2 * 2 =8 种;但是其中三种属性都泛化时,此时的假设同样满足坏瓜样本的条件,因此需要从样本的版本空间中剔除。所以,最终的样本的版本空间的假设个数为:8 - 1 = 7 种;每种的假设如下:

 

1.2   与使用单个合取式来进行假设表示相比,使用 “析合范式” 将使得假设空间具有更强的表示能力。例如 :

                          好瓜 ↔ ((色泽= * )∧ (根蒂 = 蜷缩)∧ (敲声 = 沉闷))

                                               ∨((色泽= 乌黑 )∧ (根蒂 =  * )∧ (敲声 = 沉闷))

会把“(色泽= =青绿) ^ (根蒂=蜷缩) ^ (敲声=清脆)”以及“(色泽=乌黑) ^ (根蒂=硬挺) ^ (敲声=沉闷)”都分类为“好瓜”.若使用最
多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。【提示: 注意冗余情况,如(A=a)V(A=*)与(A=*)等价。】

表1.1 西瓜样本
编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍蜷沉闷

解答:

        同理,先求样本的假设空间,观察表格可知,每个属性的值域分别有:2 3 3种情况,再加上泛化的情况,因此,每个属性的值域分别有: 3 4 4中选择,那么假设空间中一共有: 3 * 4 * 4 + 1 =49种(1种空集的假设)。

其中:0属性泛化(即每个属性都是具体的值)有: 2 * 3 * 3 =18 种可能;

           单属性泛化有:3 * 3  + 2 * 3 + 2* 3 = 9 + 6 + 6 = 21 种可能;

           双属性泛化有:2 + 3 + 3 = 8 种可能;

           三属性泛化有:1 种可能;

由于本人尚未完全理解冗余的真正含义和情形,因此考虑冗余的情况尚未解答出,但不考虑冗余,那么k最大可以取49,总的可能性的析合范式的可能共有:\sum 2^{49} 种;若是考虑冗余,则 k 最大只能取18或者21,如果单泛化也存在冗余,那么最大只能取18,否则可以取21,因为 k 泛化与 (k-1) 泛化中必然存在冗余的情形( 1≤k≤3)。

 


1.3  若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设(即不存在训练错误为0的假设)。在此情形下,试设计一种归纳偏好用于假设选择.

解答:

        个人以为:可以选择将该假设与样本中的匹配度最高的样本进行匹配,或者与匹配数最少的样本进行匹配。(此题不求甚解,题意尚未完全弄懂。)


1.4* 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估.若换用其他性能度量l,则式(1.1)将改为
                                          E_{ote}(\xi _{a}|X,f) = \sum_{h}\sum _{x\epsilon chi -X} P(x)\iota (h(x),f(x))P(h|X,\xi _{a})
        试证明“没有免费的午餐定理”仍成立。

             解答:

                        同样考虑二分类问题,且真实目标函数可以是任何函数χ → {0,1},函数空间为\left \{0,1 \right \}^{|\chi |}。对所有可能的 f 按均匀分布对误差求和,有:

                       \sum _{f} E_{ote}(\xi _{a}|X,f) = \sum _{f} \sum _{h} \sum _{x\epsilon \chi -X}P(x)l(h(x),f(x))P(h|X,\xi _{a})

                                                     =\sum _{x \epsilon \chi -X}P(x)\sum _{h}P(h|X,\xi _{a})\sum _{f}l(h(x),f(x))

                                                     =\sum _{x\epsilon \chi -X}P(x)\sum P(h|X,\xi _{a}) * c *2^{|\chi |}

                                                     =c*2^{|\chi |} \sum _{x\epsilon \chi-X}P(x)\sum_{h}P(h|X,\xi_{a} )

                                                     =c*2^{|\chi|}\sum_{x\epsilon\chi-X }P(x).1

               可知“没有免费的午餐定理仍然成立”。

              注: ① 常数c是其他性能度量的值,其他性能度量作为一个指示函数,其具体的值应当是一个常量,因此有c表示;

                      ② P(h|X,Y)代表算法Y基于训练样本数据X产生假设h的概率,因此所有假设h的概率之和应当为1;

                      ③ 任何函数都满足0,1的均匀分布,因此,每个样本数据非黑即白,则当样本空间为|χ| 时,真实目标函数的个数即                            为2^{|\chi|}

                      ③ 此题为本人参考南瓜书相关证明过程的个人理解,建议参考南瓜书证明。


1.5  试述机器学习能在互联网搜索的哪些环节起什么作用.

解答:

          如:广告精准推送,从网页中检索相应的关键词,按照浏览记录推送相应的网页等

  • 3
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值