1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
解答:
首先,根据表格可知,西瓜样本的每个属性都只有两种具体的属性,然后再加上每个样本属性都可以进行泛化,也就是可以取 * ,则每个属性都有三种取值的可能,那么总的假设空间的可能为:3 * 3 *3 =27(乘法原理);再加上∅的可能,所以,满足题意的总的可能性假设空间一共有27+1 = 28 种;
而样本的版本空间则是指满足好瓜的条件的假设的集合,那么,可以根据乘法原理,好瓜只有一个样本,并且每个属性有两种可能,所以,满足好瓜的假设的可能一共有: 2 * 2 * 2 =8 种;但是其中三种属性都泛化时,此时的假设同样满足坏瓜样本的条件,因此需要从样本的版本空间中剔除。所以,最终的样本的版本空间的假设个数为:8 - 1 = 7 种;每种的假设如下:
1.2 与使用单个合取式来进行假设表示相比,使用 “析合范式” 将使得假设空间具有更强的表示能力。例如 :
好瓜 ↔ ((色泽= * )∧ (根蒂 = 蜷缩)∧ (敲声 = 沉闷))
∨((色泽= 乌黑 )∧ (根蒂 = * )∧ (敲声 = 沉闷))
会把“(色泽= =青绿) ^ (根蒂=蜷缩) ^ (敲声=清脆)”以及“(色泽=乌黑) ^ (根蒂=硬挺) ^ (敲声=沉闷)”都分类为“好瓜”.若使用最
多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。【提示: 注意冗余情况,如(A=a)V(A=*)与(A=*)等价。】
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
解答:
同理,先求样本的假设空间,观察表格可知,每个属性的值域分别有:2 3 3种情况,再加上泛化的情况,因此,每个属性的值域分别有: 3 4 4中选择,那么假设空间中一共有: 3 * 4 * 4 + 1 =49种(1种空集的假设)。
其中:0属性泛化(即每个属性都是具体的值)有: 2 * 3 * 3 =18 种可能;
单属性泛化有:3 * 3 + 2 * 3 + 2* 3 = 9 + 6 + 6 = 21 种可能;
双属性泛化有:2 + 3 + 3 = 8 种可能;
三属性泛化有:1 种可能;
由于本人尚未完全理解冗余的真正含义和情形,因此考虑冗余的情况尚未解答出,但不考虑冗余,那么k最大可以取49,总的可能性的析合范式的可能共有: 种;若是考虑冗余,则 k 最大只能取18或者21,如果单泛化也存在冗余,那么最大只能取18,否则可以取21,因为 k 泛化与 (k-1) 泛化中必然存在冗余的情形( 1≤k≤3)。
1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设(即不存在训练错误为0的假设)。在此情形下,试设计一种归纳偏好用于假设选择.
解答:
个人以为:可以选择将该假设与样本中的匹配度最高的样本进行匹配,或者与匹配数最少的样本进行匹配。(此题不求甚解,题意尚未完全弄懂。)
1.4* 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估.若换用其他性能度量l,则式(1.1)将改为
试证明“没有免费的午餐定理”仍成立。
解答:
同样考虑二分类问题,且真实目标函数可以是任何函数χ → {0,1},函数空间为。对所有可能的 f 按均匀分布对误差求和,有:
可知“没有免费的午餐定理仍然成立”。
注: ① 常数c是其他性能度量的值,其他性能度量作为一个指示函数,其具体的值应当是一个常量,因此有c表示;
② P(h|X,Y)代表算法Y基于训练样本数据X产生假设h的概率,因此所有假设h的概率之和应当为1;
③ 任何函数都满足0,1的均匀分布,因此,每个样本数据非黑即白,则当样本空间为|χ| 时,真实目标函数的个数即 为
③ 此题为本人参考南瓜书相关证明过程的个人理解,建议参考南瓜书证明。
1.5 试述机器学习能在互联网搜索的哪些环节起什么作用.
解答:
如:广告精准推送,从网页中检索相应的关键词,按照浏览记录推送相应的网页等