西瓜书笔记(一)

西瓜书买了好久,终于有机会拿出来看了,第一章总结如下:

一、基本术语

还是用作者的西瓜举例子,背景是收集了大量的西瓜的数据

如(色泽=青绿;根蒂=蜷缩;敲声=浑浊),(色泽=乌黑;根蒂=稍蜷;敲声=沉闷),(色泽=浅白;根蒂=硬挺;敲声=清脆)等

1、数据集:上面的整个数据就是数据集

2、示例/样本:其中每一条记录

3、属性/特征:色泽,根蒂和敲声

4、属性值:青绿,乌黑等

5、属性空间/样本空间/输入空间:如把西瓜的三个属性作为三个坐标轴,则它们张成的三位空间成为属性空间

6、特征向量:每个示例都在属性空间上是一个点,因此一个示例也称为一个特征向量

7、学习/训练:从数据中学得模型的过程称为“学习”,这个过程通过执行某个学习算法完成

8、训练数据:训练过程中使用的数据

9、训练样本:训练数据中的每个样本称为训练样本

10、训练集:训练样本组成的集合称为训练集

11、假设:学得模型对应的关于数据的某种潜在规律(学习就是为了找出或者逼近真相)

12、真相/真实:上面提到的潜在规律就是真相

13、学习器:模型的别称,可以看成学习算法在给定数据和参数空间上的实例化

14、标记:关于示例的结果信息,如:好瓜、坏瓜

15、样例:拥有了标记信息的示例,称为样例

16、标记空间/输出空间:所有的标记的集合

17、分类:预测的是离散值,比如:好瓜、坏瓜,这种学习任务称为分类,只涉及到两个类别的“二分类”任务,通常称其中一类为“正类”,另一类为“反类”

18、回归:预测的是连续纸,如西瓜的成熟度,这种学习任务称为回归

19、测试:学到模型后,用模型进行预测的过程

20、测试样本:被预测的样本

21、聚类:将训练集中的西瓜分成若干组,每组一个“簇“,这些自动形成的簇可能对应某些潜在的概念划分,但是事先我们并不知道,训练样本通常不拥有标记

22、学习任务划分:监督学习(以分类和回归为代表),无监督学习(以聚类为代表)

23、泛化:学习到的模型适用于新样本的能力

24、归纳:特殊到一般,泛化的过程

25、演绎:一般到特殊的特化过程

26、假设空间:所有的假设组成的空间

27、版本空间:存在者多个假设与训练集一直,即与训练集一致的假设集合,版本空间的获得方法通过不断删除与正例不一致的假设、和反例一致的假设

28、归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好,称为归纳偏好,个人理解,就是从多种都符合的版本空间中选择一个自己觉得好的

29、奥卡姆剃刀:引导算法确立”正确的“偏好的一种常用原则,若有多个假设与观察一致,则选最简单的那个,但并非唯一可行的原则,而且哪个假设更简单本身也并不总是个简单的问题,需要借助于其他机制来解决

30、归纳偏好的作用:归纳偏好对应了学习算法本身做出的什么样的算法更好的假设,具体的显示问题中,这个假设是否成立,直接决定了算法是否能够取得好的性能

31、没有免费的午餐定理(NFL):无论学习算法a多机智,算法b多笨拙,他们的期望性能是相同的(前提是所有问题出现的机会相同),但是现实生活中需要具体问题具体分析,因为所有问题出现的机会一般都不是相同的

  • 2
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值