西瓜书(《机器学习》周志华)习题解析-第1章-绪论

西瓜书(《机器学习》周志华)习题解析-第1章-绪论


1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间
编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍蜷沉闷

在书中给出的西瓜数据集中,样本有三个维度:色泽、根蒂、敲声,其中色泽有两个可能的取值 { 青绿,乌黑 } ,根蒂有三个 { 蜷缩,稍蜷,硬挺 } ,敲声有三个 { 浊响,清脆,沉闷 } ,各自加上通配,再加上“好瓜不存在”的空集,假设空间规模 3 * 4 * 4 + 1 = 49,要根据数据集删除与正例不一致的假设,和与反例一致的假设,即得到该问题的版本空间。p

若数据集只有编号1和4,则正例有一个, { 青绿,蜷缩,浊响 } ,与之相符的假设只有 { 青绿,蜷缩,浊响 } { 青绿,蜷缩,* } { 青绿,*,浊响 } { 青绿,*,* } { *,蜷缩,浊响 } { *,蜷缩,* } { *,*,浊响 } { *,*,* } ,8种。反例只有一个, { 乌黑,稍蜷,沉闷 } ,排除了上面8种情况中的最后一种 { *,*,* } ,留下的7种假设都是有可能的,版本空间为:

{ 青绿,蜷缩,浊响 } { 青绿,蜷缩,* } { 青绿,*,浊响 } { 青绿,*,* } { *,蜷缩,浊响 } { *,蜷缩,* } { *,*,浊响 }

1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。例如 好瓜 ↔ ( (色泽=*) ∧ (根蒂=蜷缩) ∧ (敲声=*) ) ∨ ( (色泽=乌黑) ∧ (根蒂=*) ∧ (敲声=沉闷) ) 会把“ (色泽=青绿) ∧ (根蒂=蜷缩) ∧ (敲声=清脆) ”和“ (色泽=乌黑) ∧ (根蒂=硬挺) ∧ (敲声=沉闷) ”都分类为“好瓜”。若使用最多包含 k 个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算共有多少种可能的假设。

这篇博客将问题叙述地相当清楚:https://blog.csdn.net/weixin_42702793/article/details/104178807

1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情况下,试设计一种归纳偏好用于假设选择

数据包含噪声,其含义为,存在训练集本身的部分数据,其属性取值对应的标记值是错误的。对于噪声,最理想的情况是去除所有噪声,即将这部分“错误”的数据剔除出训练集。但事实上,单从数据集本身来剔除噪声并无通用的办法,甚至无法直接判断哪些数据属于噪声。通用地讲,我们可以先认为所有不矛盾的数据都是“正确”的,只有那些属性值相同但标记值不同的数据,“相互矛盾”的情况下,才剔除一部分数据使矛盾消除,此时剔除的方法可以视为一种归纳偏好。

例如,属性值相同的两个数据,其标记值分别为正例和反例,可以设计归纳偏好为:始终保留正例的数据,或始终保留反例的数据。

1.4 本章1.4节在论述“没有免费的午餐”定理时,默认使用了“分类错误率”作为性能度量来对分类器进行评估。若换用其他性能度量 l,则式(1.1)将改为(将其中的指示函数改为其它性能度量 l 函数),试证明“没有免费午餐定理”仍成立。

这篇博客将问题叙述地相当清楚:https://blog.csdn.net/dicker6315/article/details/81265066

1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。

(开放性问题,此除略)

  • 1
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
1. 什么是泛化能力?泛化能力和过拟合之间有什么关系? 泛化能力是指模型在新的、未见过的数据上的表现能力。模型的泛化能力与其对训练数据的拟合程度有关,通常来说,过拟合的模型泛化能力较差。 2. 什么是交叉验证?交叉验证的作用是什么? 交叉验证是一种通过将数据集分成若干个子集来进行模型评估的方法。具体地,将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。交叉验证的作用是提高模型评估的可靠性和泛化能力。 3. 留出法、k折交叉验证和留一法的区别是什么?它们各自适用于什么情况? 留出法是将数据集分成两部分,一部分作为训练集,另一部分作为测试集。留出法适用于数据集较大的情况。 k折交叉验证是将数据集分成k个子集,每个子集都轮流作为测试集,其余子集作为训练集,重复k次,最终得到k个模型的评估结果的平均值。k折交叉验证适用于数据集较小的情况。 留一法是k折交叉验证的一种特殊情况,即将数据集分成n个子集,每个子集都作为测试集,其余子集作为训练集,重复n次。留一法适用于数据集较小且样本数较少的情况。 4. 为什么要对数据进行预处理?数据预处理的方法有哪些? 数据预处理可以提高模型的表现,并且可以减少过拟合的风险。数据预处理的方法包括:标准化、归一化、缺失值填充、特征选择、特征降维等。 5. 什么是特征选择?特征选择的方法有哪些? 特征选择是指从所有特征中选择出对模型预测结果有重要贡献的特征。特征选择的方法包括:过滤式方法、包裹式方法和嵌入式方法。其中,过滤式方法是基于特征间的关系进行特征选择,包裹式方法是基于模型的性能进行特征选择,嵌入式方法是将特征选择嵌入到模型训练中。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值