【机器学习】西瓜书学习心得及课后习题参考答案—第1章绪论

一个甜甜的大橙子

已于 2023-08-05 10:49:14 修改

阅读量8.2k

点赞数 15

分类专栏：大橙子学机器学习文章标签：机器学习人工智能算法

于 2023-05-05 21:27:04 首次发布

本文链接：https://blog.csdn.net/chengyikang20/article/details/130513002

版权

大橙子学机器学习专栏收录该内容

9 篇文章

订阅专栏

文章探讨了机器学习的基本概念，包括学习算法、假设空间和归纳偏好，强调了奥卡姆剃刀原则在处理训练数据中的重要性，并提及了NoFreeLaunch定理。此外，还讨论了机器学习在互联网搜索中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

笔记心得

记录西瓜书课后习题的思考与参考答案。

第1章绪论，1.1引言，大致了解机器学习是一门怎么样的学科（通过计算的手段，利用经验改善系统自身的性能），是一门研究“学习算法”的学问。
1.2基本术语，学习了基本术语，个人认为其中部分术语包含了这门学科的一些基础思想，如特征向量，泛化，分布，独立同分布等。
1.3假设空间，学习了假设空间，搜索（学习过程），版本空间等概念。
1.4归纳偏好，了解了任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上“等效”的假设所迷惑，而无法产生确定的学习结果。同时了解了引导算法确立“正确”偏好的一般性原则——奥卡姆剃刀。紧接着通过数学推导，引出了NFL定理，当然该定理的前提是所有“问题”出现的机会相同，而实际情况并不是这样，该定理的寓意是让我们意识到，脱离具体问题，空泛的谈论“什么学习算法更好”毫无意义，学习算法自身的归纳偏好与问题是否匹配，往往会起到决定性作用。
1.5发展历程，学习了机器学习的研究发展历程
1.6应用现状，了解了机器学习技术的应用现状

术语学习

机器学习 machine learning
模型 model
学习算法 learning algorithm
数据集 data set
示例 instance
样本 sample
属性 attribute
特征 feature
属性值 attribute value
属性空间 attribute space
样本空间 sample space
特征向量 feature vector
维数 dimensionality
学习 learning
训练 training
训练数据 training data
训练样本 training sample
训练集 training set
假设 hypothesis
真相 ground-truth
学习器 learner
预测 prediction
标记 label
样例 example
标记空间 label space
分类 classification
回归 regression
二分类 binary classification
正类 positive class
反类 negative class
多分类 multi-class classification
测试 testing
测试样本 testing sample
聚类 clustering
簇 cluster
监督学习 supervised learning
无监督学习 unsupervised learning
泛化 generalization
分布 distribution
独立同分布 independent and identically distributed 简称i.i.d
归纳 induction
演绎 deduction
特化 specialization
归纳学习 inductive learning
概念 concept
版本空间 version space
归纳偏好 inductive bias
奥卡姆剃刀 Occam’s razor
“没有免费的午餐”定理 No Free Launch Theorem
人工智能 artificial intelligence
通用问题求解 General Problem Solving
连接主义 connectionism
符号主义 symbolism
决策树 decision tree
统计学习 statistic learning
支持向量机 support vector machine
核方法 kernel methods
核技巧 kernel trick
众包 crowdsourcing
数据挖掘 data mining
迁移学习 transfer learning
类比学习 learning by analogy
深度学习 deep learning

课后习题

1.1 表1.1中若只包含编号为1和4的两个样例，试给出相应的版本空间。

答：
版本空间：与训练集一致的“假设集合”，称之为“版本空间”（version space）
只包含编号为1和4的两个样例后，数据集为：

编号	色泽	根蒂	敲声	好瓜
1	青绿	蜷缩	浊响	是
4	乌黑	稍蜷	沉闷	否

解题过程可以先列出假设空间，然后通过某种策略对假设空间进行搜索，删除与正例不一致的假设，和反例一致的假设，得到版本空间。
请添加图片描述

1.2 与使用单个合取式来进行假设表示相比，使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间，试估算有多少种可能的假设。

答：
合取相当于交集，析取相当于并集。
西瓜共有3个属性，特征值数量分别为2,3,3，记为(A1,A2);(B1,B2,B3);(C1,C2,C3)，因此可以构造一个3*4*4=48个假设的假设空间。

48个假设中：
0个属性泛化时，单个合取式可以表示的假设有2*3*3=18种，这也是18种特征组合，将18种单个合取式组合后根据二项式定理，可能的假设有2^18种，并且不存在冗余的关系，也就是说这是可能的假设数量上限。
当属性泛化时，单个合取式之间存在冗余关系，组合后之间也有冗余关系
1个属性泛化时，单个合取式可以表示的假设有2*3+3*3+2*3=21种
2个属性泛化时，单个合取式可以表示的假设有2+3+3=8种
3个属性泛化时，单个合取式可以表示的假设有1种

k最大为48，即从48个合取范式中选择k个进行组合，k=1时（最多包含1个合取范式），能表示48+1=49种假设
k为2时，合取式之间就可能存在冗余关系，去除冗余后，能表示898种
…