西瓜书笔记（一）

最新推荐文章于 2024-04-15 19:29:11 发布

ningai007

最新推荐文章于 2024-04-15 19:29:11 发布

阅读量370

点赞数 2

分类专栏：机器学习文章标签：西瓜书机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014310010/article/details/83857045

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

西瓜书买了好久，终于有机会拿出来看了，第一章总结如下：

一、基本术语

还是用作者的西瓜举例子，背景是收集了大量的西瓜的数据

如（色泽=青绿；根蒂=蜷缩；敲声=浑浊），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）等

1、数据集：上面的整个数据就是数据集

2、示例/样本：其中每一条记录

3、属性/特征：色泽，根蒂和敲声

4、属性值：青绿，乌黑等

5、属性空间/样本空间/输入空间：如把西瓜的三个属性作为三个坐标轴，则它们张成的三位空间成为属性空间

6、特征向量：每个示例都在属性空间上是一个点，因此一个示例也称为一个特征向量

7、学习/训练：从数据中学得模型的过程称为“学习”，这个过程通过执行某个学习算法完成

8、训练数据：训练过程中使用的数据

9、训练样本：训练数据中的每个样本称为训练样本

10、训练集：训练样本组成的集合称为训练集

11、假设：学得模型对应的关于数据的某种潜在规律（学习就是为了找出或者逼近真相）

12、真相/真实：上面提到的潜在规律就是真相

13、学习器：模型的别称，可以看成学习算法在给定数据和参数空间上的实例化

14、标记：关于示例的结果信息，如：好瓜、坏瓜

15、样例：拥有了标记信息的示例，称为样例

16、标记空间/输出空间：所有的标记的集合

17、分类：预测的是离散值，比如：好瓜、坏瓜，这种学习任务称为分类，只涉及到两个类别的“二分类”任务，通常称其中一类为“正类”，另一类为“反类”

18、回归：预测的是连续纸，如西瓜的成熟度，这种学习任务称为回归

19、测试：学到模型后，用模型进行预测的过程

20、测试样本：被预测的样本

21、聚类：将训练集中的西瓜分成若干组，每组一个“簇“，这些自动形成的簇可能对应某些潜在的概念划分，但是事先我们并不知道，训练样本通常不拥有标记

22、学习任务划分：监督学习（以分类和回归为代表），无监督学习（以聚类为代表）

23、泛化：学习到的模型适用于新样本的能力

24、归纳：特殊到一般，泛化的过程

25、演绎：一般到特殊的特化过程

26、假设空间：所有的假设组成的空间

27、版本空间：存在者多个假设与训练集一直，即与训练集一致的假设集合，版本空间的获得方法通过不断删除与正例不一致的假设、和反例一致的假设

28、归纳偏好：机器学习算法在学习过程中对某种类型假设的偏好，称为归纳偏好，个人理解，就是从多种都符合的版本空间中选择一个自己觉得好的

29、奥卡姆剃刀：引导算法确立”正确的“偏好的一种常用原则，若有多个假设与观察一致，则选最简单的那个，但并非唯一可行的原则，而且哪个假设更简单本身也并不总是个简单的问题，需要借助于其他机制来解决

30、归纳偏好的作用：归纳偏好对应了学习算法本身做出的什么样的算法更好的假设，具体的显示问题中，这个假设是否成立，直接决定了算法是否能够取得好的性能

31、没有免费的午餐定理（NFL）：无论学习算法a多机智，算法b多笨拙，他们的期望性能是相同的（前提是所有问题出现的机会相同），但是现实生活中需要具体问题具体分析，因为所有问题出现的机会一般都不是相同的

关注

2
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
西瓜书笔记（一）

西瓜书买了好久，终于有机会拿出来看了，第一章总结如下：一、基本术语还是用作者的西瓜举例子，背景是收集了大量的西瓜的数据如（色泽=青绿；根蒂=蜷缩；敲声=浑浊），（色泽=乌黑；根蒂=稍蜷；敲声=沉闷），（色泽=浅白；根蒂=硬挺；敲声=清脆）等1、数据集：上面的整个数据就是数据集2、示例/样本：其中每一条记录3、属性/特征：色泽，根蒂和敲声4、属性值：青绿，乌黑等5、属...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。