【机器学习】西瓜书学习心得及课后习题参考答案—第1章绪论

笔记心得

记录西瓜书课后习题的思考与参考答案。

  • 第1章绪论,1.1引言,大致了解机器学习是一门怎么样的学科(通过计算的手段,利用经验改善系统自身的性能),是一门研究“学习算法”的学问。
  • 1.2基本术语,学习了基本术语,个人认为其中部分术语包含了这门学科的一些基础思想,如特征向量,泛化,分布,独立同分布等。
  • 1.3假设空间,学习了假设空间,搜索(学习过程),版本空间等概念。
  • 1.4归纳偏好,了解了任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。同时了解了引导算法确立“正确”偏好的一般性原则——奥卡姆剃刀。紧接着通过数学推导,引出了NFL定理,当然该定理的前提是所有“问题”出现的机会相同,而实际情况并不是这样,该定理的寓意是让我们意识到,脱离具体问题,空泛的谈论“什么学习算法更好”毫无意义,学习算法自身的归纳偏好与问题是否匹配,往往会起到决定性作用。
  • 1.5发展历程,学习了机器学习的研究发展历程
  • 1.6应用现状,了解了机器学习技术的应用现状

术语学习

机器学习 machine learning
模型 model
学习算法 learning algorithm
数据集 data set
示例 instance
样本 sample
属性 attribute
特征 feature
属性值 attribute value
属性空间 attribute space
样本空间 sample space
特征向量 feature vector
维数 dimensionality
学习 learning
训练 training
训练数据 training data
训练样本 training sample
训练集 training set
假设 hypothesis
真相 ground-truth
学习器 learner
预测 prediction
标记 label
样例 example
标记空间 label space
分类 classification
回归 regression
二分类 binary classification
正类 positive class
反类 negative class
多分类 multi-class classification
测试 testing
测试样本 testing sample
聚类 clustering
簇 cluster
监督学习 supervised learning
无监督学习 unsupervised learning
泛化 generalization
分布 distribution
独立同分布 independent and identically distributed 简称i.i.d
归纳 induction
演绎 deduction
特化 specialization
归纳学习 inductive learning
概念 concept
版本空间 version space
归纳偏好 inductive bias
奥卡姆剃刀 Occam’s razor
“没有免费的午餐”定理 No Free Launch Theorem
人工智能 artificial intelligence
通用问题求解 General Problem Solving
连接主义 connectionism
符号主义 symbolism
决策树 decision tree
统计学习 statistic learning
支持向量机 support vector machine
核方法 kernel methods
核技巧 kernel trick
众包 crowdsourcing
数据挖掘 data mining
迁移学习 transfer learning
类比学习 learning by analogy
深度学习 deep learning

课后习题

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

答:
版本空间:与训练集一致的“假设集合”,称之为“版本空间”(version space)
只包含编号为1和4的两个样例后,数据集为:

编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
4乌黑稍蜷沉闷

解题过程可以先列出假设空间,然后通过某种策略对假设空间进行搜索,删除与正例不一致的假设,和反例一致的假设,得到版本空间。
请添加图片描述

1.2 与使用单个合取式来进行假设表示相比,使用“析合范式”将使得假设空间具有更强的表示能力。若使用最多包含k个合取式的析合范式来表达表1.1西瓜分类问题的假设空间,试估算有多少种可能的假设。

答:
合取相当于交集,析取相当于并集。
西瓜共有3个属性,特征值数量分别为2,3,3,记为(A1,A2);(B1,B2,B3);(C1,C2,C3),因此可以构造一个3*4*4=48个假设的假设空间。

48个假设中:
0个属性泛化时,单个合取式可以表示的假设有2*3*3=18种,这也是18种特征组合,将18种单个合取式组合后根据二项式定理,可能的假设有2^18种,并且不存在冗余的关系,也就是说这是可能的假设数量上限。
当属性泛化时,单个合取式之间存在冗余关系,组合后之间也有冗余关系
1个属性泛化时,单个合取式可以表示的假设有2*3+3*3+2*3=21
2个属性泛化时,单个合取式可以表示的假设有2+3+3=8
3个属性泛化时,单个合取式可以表示的假设有1种

k最大为48,即从48个合取范式中选择k个进行组合,k=1时(最多包含1个合取范式),能表示48+1=49种假设
k为2时,合取式之间就可能存在冗余关系,去除冗余后,能表示898种

参考链接

1.3 若数据包含噪声,则假设空间中有可能不存在与所有训练样本都一致的假设。在此情形下,设计一种归纳偏好用于假设选择。

答:
通常使用奥卡姆剃刀原则,也可以剔除相同特征向量,但标签不同的数据。

另一解答:
在训练过程中选择满足最多样本的假设。也可以对每个假设,求得其准确率。准确率=(符合假设的条件且为好瓜的样例数量)/(符合假设的条件的样例数量)。选择准确率最高的假设。

参考链接

1.4

参考链接

1.5 试述机器学习能在互联网搜索的哪些环节起作用。

答:
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
从搜索过程进行分析

  • 在向搜索引擎提交信息阶段,通过NLP, CV等技术提高系统对提交信息中的关键信息提取性能
  • 在搜索引擎进行信息匹配阶段,提高信息匹配程度
  • 在向用户进行信息展示阶段,提高信息展示顺序与用户兴趣的匹配程度
  • 6
    点赞
  • 49
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论
机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课后习题答案(较完整)机器学习部分课

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一个甜甜的大橙子

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值