西瓜书（《机器学习》周志华）习题解析-第1章-绪论

最新推荐文章于 2025-02-12 23:04:48 发布

置顶走肖暂时无法接通

最新推荐文章于 2025-02-12 23:04:48 发布

阅读量3.2k

点赞数 3

分类专栏：西瓜书学习笔记文章标签：机器学习

本文链接：https://blog.csdn.net/JeremyZhao1998/article/details/112284691

版权

西瓜书学习笔记专栏收录该内容

2 篇文章

订阅专栏

西瓜书（《机器学习》周志华）习题解析-第1章-绪论

1.1 表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	蜷缩	浊响	是
3	青绿	硬挺	清脆	否
4	乌黑	稍蜷	沉闷	否

在书中给出的西瓜数据集中，样本有三个维度：色泽、根蒂、敲声，其中色泽有两个可能的取值 { 青绿，乌黑 } ，根蒂有三个 { 蜷缩，稍蜷，硬挺 } ，敲声有三个 { 浊响，清脆，沉闷 } ，各自加上通配，再加上“好瓜不存在”的空集，假设空间规模 3 * 4 * 4 + 1 = 49，要根据数据集删除与正例不一致的假设，和与反例一致的假设，即得到该问题的版本空间。p

若数据集只有编号1和4，则正例有一个， { 青绿，蜷缩，浊响 } ，与之相符的假设只有 { 青绿，蜷缩，浊响 } { 青绿，蜷缩，* } { 青绿，*，浊响 } { 青绿，*，* } { *，蜷缩，浊响 } { *，蜷缩，* } { *，*，浊响 } { *，*，* } ，8种。反例只有一个， { 乌黑，稍蜷，沉闷 } ，排除了上面8种情况中的最后一种 { *，*，* } ，留下的7种假设都是有可能的，版本空间为：

{ 青绿，蜷缩，浊响 } { 青绿，蜷缩，* } { 青绿，*，浊响 } { 青绿，*，* } { *，蜷缩，浊响 } { *，蜷缩，* } { *，*，浊响 }

1.2 与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。例如好瓜 ↔ ( (色泽=) ∧ (根蒂=蜷缩) ∧ (敲声=) ) ∨ ( (色泽=乌黑) ∧ (根蒂=*) ∧ (敲声=沉闷) ) 会把“ (色泽=青绿) ∧ (根蒂=蜷缩) ∧ (敲声=清脆) ”和“ (色泽=乌黑) ∧ (根蒂=硬挺) ∧ (敲声=沉闷) ”都分类为“好瓜”。若使用最多包含 k 个合取式的析合范式来表达表1.1西瓜分类问题的假设空间，试估算共有多少种可能的假设。

这篇博客将问题叙述地相当清楚：https://blog.csdn.net/weixin_42702793/article/details/104178807

1.3 若数据包含噪声，则假设空间中有可能不存在与所有训练样本都一致的假设。在此情况下，试设计一种归纳偏好用于假设选择

数据包含噪声，其含义为，存在训练集本身的部分数据，其属性取值对应的标记值是错误的。对于噪声，最理想的情况是去除所有噪声，即将这部分“错误”的数据剔除出训练集。但事实上，单从数据集本身来剔除噪声并无通用的办法，甚至无法直接判断哪些数据属于噪声。通用地讲，我们可以先认为所有不矛盾的数据都是“正确”的，只有那些属性值相同但标记值不同的数据，“相互矛盾”的情况下，才剔除一部分数据使矛盾消除，此时剔除的方法可以视为一种归纳偏好。

例如，属性值相同的两个数据，其标记值分别为正例和反例，可以设计归纳偏好为：始终保留正例的数据，或始终保留反例的数据。