西瓜书(《机器学习》周志华)习题解析-第1章-绪论
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 蜷缩 | 浊响 | 是 |
3 | 青绿 | 硬挺 | 清脆 | 否 |
4 | 乌黑 | 稍蜷 | 沉闷 | 否 |
在书中给出的西瓜数据集中,样本有三个维度:色泽、根蒂、敲声,其中色泽有两个可能的取值 { 青绿,乌黑 } ,根蒂有三个 { 蜷缩,稍蜷,硬挺 } ,敲声有三个 { 浊响,清脆,沉闷 } ,各自加上通配,再加上“好瓜不存在”的空集,假设空间规模 3 * 4 * 4 + 1 = 49,要根据数据集删除与正例不一致的假设,和与反例一致的假设,即得到该问题的版本空间。p
若数据集只有编号1和4,则正例有一个, { 青绿,蜷缩,浊响 } ,与之相符的假设只有 { 青绿,蜷缩,浊响 } { 青绿,蜷缩,* } { 青绿,*,浊响 } { 青绿,*,* } { *,蜷缩,浊响 } { *,蜷缩,* } { *,*,浊响 } { *,*,* } ,8种。反例只有一个, { 乌黑,稍蜷,沉闷 } ,排除了上面8种情况中的最后一种 { *,*,* } ,留下的7种假设都是有可能的,版本空间为:
{ 青绿,蜷缩,浊响 } { 青绿,蜷缩,* } { 青绿,*,浊响 } { 青绿,*,* } { *,蜷缩,浊响 } { *,蜷缩,* } { *,*,浊响 }
1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。例如 好瓜 ↔ ( (色泽=*) ∧ (根蒂=蜷缩) ∧ (敲声=*) ) ∨ ( (色泽=乌黑) ∧ (根蒂=*) ∧ (敲声=沉闷) ) 会把“ (色泽=青绿) ∧ (根蒂=蜷缩) ∧ (敲声=清脆) ”和“ (色泽=乌黑) ∧ (根蒂=硬挺) ∧ (敲声=沉闷) ”都分类为“好瓜”。若使用最多包含 k 个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。
这篇博客将问题叙述地相当清楚:https://blog.csdn.net/weixin_42702793/article/details/104178807
1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情况下,试设计一种归纳偏好用于假设选择
数据包含噪声,其含义为,存在训练集本身的部分数据,其属性取值对应的标记值是错误的。对于噪声,最理想的情况是去除所有噪声,即将这部分“错误”的数据剔除出训练集。但事实上,单从数据集本身来剔除噪声并无通用的办法,甚至无法直接判断哪些数据属于噪声。通用地讲,我们可以先认为所有不矛盾的数据都是“正确”的,只有那些属性值相同但标记值不同的数据,“相互矛盾”的情况下,才剔除一部分数据使矛盾消除,此时剔除的方法可以视为一种归纳偏好。
例如,属性值相同的两个数据,其标记值分别为正例和反例,可以设计归纳偏好为:始终保留正例的数据,或始终保留反例的数据。
1.4 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量 l,则式(1.1)将改为(将其中的指示函数改为其它性能度量 l 函数),试证明“没有免费午餐定理”仍成立。
这篇博客将问题叙述地相当清楚:https://blog.csdn.net/dicker6315/article/details/81265066
1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。
(开放性问题,此除略)