本人机器学习初学者,下面仅为个人的一些思考,可能有一些不足的地方,欢迎大家斧正。
第1章 绪论
1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。
关键概念解释:
- 假设空间:训练集中所有属性的可能性的集合+属性无论取什么情况都合适的集合(即一个或多个属性被“*”替代)+概念不成立的情况(1个空集)
- 版本空间:与训练集一致的集合。即在假设空间中筛选出和训练集相同的集合。筛选的时候将训练集中每一条数据与假设空间中的数据一一比对,训练集中是正例的只要对应的属性有不一样就删除掉假设空间中对应的数据(对应属性是“*”的不删除),训练集中是反例的只要被包含在假设中间中的某一项时只要把那一项删除,最后假设空间中剩下的内容即为版本空间。
- 版本空间的另一种获得方法:将训练集中的正例进行最大泛化,然后剔除掉符合反例的数据。
题目思路:
当样例仅剩1、4时即
编号 | 色泽 | 根蒂 | 敲声 | 好瓜 |
---|---|---|---|---|
1 | 青绿 | 蜷缩 | 浊响 | 是 |
2 | 乌黑 | 稍蜷 | 沉闷 | 否 |
采用另一种获得方法进行分析:
首先对编号1的数据进行泛化,可以得到以下内容(共个):
编号 | 色泽 | 根蒂 | 敲声 |
---|---|---|---|
a | 青绿 | 蜷缩 | 浊响 |
b | * | 蜷缩 | 浊响 |
c | 青绿 | * | 浊响 |
d | 青绿 | 蜷缩 | * |
e | 青绿 | * | * |
f | * | 蜷缩 | * |
g | * | * | 浊响 |
h | * | * | * |
再根据反例剔除泛化后不成立的结果。显而易见的是h包含了2的情况,因此h被剔除。而剩下的a~g即为所求的版本空间。
1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达1.1的西瓜分类问题的假设空间,试估算有多少种可能的假设。
关键概念解释:
- 合取式:合取式( conJunction)用合取真值联结词“∧”将两个或两个以上的命题联结起来而形成的命题形式。在题目中“(色泽=青绿)(根蒂=蜷缩)(敲声=清脆)”就是一种合取式。
-
析合范式:将几个合取式采用符号进行连接的式子。
题目思路:
假设空间加空集的情况下大小为3×4×4+1=49
考虑冗余的情况下:
具体的(不含通配符的)假设:2×3×3=18
含1个通配符的假设:3×3+2×3+2×3=21(种)
含2个通配符的假设:2+3+3=8(种)
含3个通配符的假设:1(种)
此时k的最大值为18,假设的个数为1
k的最小值为1,假设的个数为48(即除去空集的所有情况)
1.3 若数据包含噪声,则假设空间中可能不存在与所有训练样本都一致的假设。在此情形下,试设计一种归纳偏好用于假设选择。
题目思路:
由于没有完全一致的,因此可以考虑找出和训练样本相似度最高的假设,即找出属性匹配得最多的那些假设。
1.5 试述机器学习能在互联网搜索的哪些环节起什么作用。
题目思路:
- 通过机器学习学习图像内容对未来图像检索能起到帮助
- 通过学习人们使用搜索引擎搜索的内容提供更为精准的搜索服务
- 学习用户商品的浏览和购买记录提供个性化的广告推荐