关于西瓜书书后习题的思考：机器学习学习笔记一

最新推荐文章于 2022-09-09 22:21:10 发布

果菌药

最新推荐文章于 2022-09-09 22:21:10 发布

阅读量426

点赞数 5

分类专栏：机器学习文章标签：机器学习课堂笔记

本文链接：https://blog.csdn.net/qq_40688292/article/details/88063052

版权

10 篇文章 2 订阅

订阅专栏

本人机器学习初学者，下面仅为个人的一些思考，可能有一些不足的地方，欢迎大家斧正。

第1章绪论

1.1 表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间。

假设空间：训练集中所有属性的可能性的集合+属性无论取什么情况都合适的集合（即一个或多个属性被“*”替代）+概念不成立的情况（1个空集）
版本空间：与训练集一致的集合。即在假设空间中筛选出和训练集相同的集合。筛选的时候将训练集中每一条数据与假设空间中的数据一一比对，训练集中是正例的只要对应的属性有不一样就删除掉假设空间中对应的数据（对应属性是“*”的不删除），训练集中是反例的只要被包含在假设中间中的某一项时只要把那一项删除，最后假设空间中剩下的内容即为版本空间。
版本空间的另一种获得方法：将训练集中的正例进行最大泛化，然后剔除掉符合反例的数据。

当样例仅剩1、4时即

西瓜数据集
编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
2	乌黑	稍蜷	沉闷	否

采用另一种获得方法进行分析：

首先对编号1的数据进行泛化，可以得到以下内容（共 $2^{n}$ 个）：

再根据反例剔除泛化后不成立的结果。显而易见的是h包含了2的情况，因此h被剔除。而剩下的a~g即为所求的版本空间。

1.2 与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间，试估算有多少种可能的假设。

合取式：合取式（ conJunction）用合取真值联结词“∧”将两个或两个以上的命题联结起来而形成的命题形式。在题目中“（色泽=青绿） $\wedge$ （根蒂=蜷缩） $\wedge$ （敲声=清脆）”就是一种合取式。
析合范式：将几个合取式采用 $\vee$ 符号进行连接的式子。

假设空间加空集的情况下大小为3×4×4+1=49

考虑冗余的情况下：

具体的（不含通配符的）假设：2×3×3=18

含1个通配符的假设:3×3+2×3+2×3=21(种)

含2个通配符的假设：2+3+3=8(种)

含3个通配符的假设：1(种)

此时k的最大值为18，假设的个数为1

k的最小值为1，假设的个数为48（即除去空集的所有情况）

1.3 若数据包含噪声，则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下，试设计一种归纳偏好用于假设选择。

由于没有完全一致的，因此可以考虑找出和训练样本相似度最高的假设，即找出属性匹配得最多的那些假设。

1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。

关注