西瓜数据集3.0_西瓜书笔记——第一章

1.1引言

1.2基本术语

按照课文给的实例,关于西瓜的数据。

数据集:整个所给的数据的集合称为数据集

样本/示例:一个事件或者对象,这里的是一个西瓜

属性/特征:事件或者对象的某方面的表现或性质,比如西瓜的色泽,根蒂,敲声

属性值:属性的取值,比如色泽属性可以取青绿、乌黑

属性空间/样本空间/输入空间:整个属性张成的空间,比如把上述的三个属性在一个三维坐标中表示出

一个西瓜的三位空间,每一个西瓜都可以在在这个空间中找到自己的位置。

特征向量:空间中的每一个点都对应一个坐标向量,所以每一个样本也可以称为特征向量

训练数据:用于训练的数据

训练样本:训练数据中的每一一个样本

标记空间/输出空间:所有输出的集合

分类:预测的是离散值

回归:预测的是连续值

二分类:只涉及两个类别的任务,其中一个称为正类,另一个为负类

多分类:

聚类:训练集中的样本分成若干个组,每一组称为一个‘簇’

监督学习:有标记信息,(分类,回归)

无监督学习:无标记信息(聚类)

泛化能力:学得的模型能够适用于新样本的能力

1.3假设空间

归纳:从特殊到一般(广义归纳:相当于从样本中学习。狭义归纳:从训练集中学的概念,因此称为概念学习)

演绎:从一般到特殊

概念学习:最基本的就是布尔概念学习

假设集合/版本空间:有多个假设与训练集一致,即与训练集一致

7bf7b52b65c6bf87ea644d02b43337f3.png

f320bd56f86ba5c5b11383e6540801c5.png

3ce019ff6d766e4635601da7be174b94.png

1.4归纳偏好

归纳偏好:机器学习算法在学习的过程中对某种类型假设的偏好

奥卡姆剃刀:若多个假设与观察一致,则选择最简单的一个,比如下图选择较为平滑的哪个

2ddad8dee1acca145e951e1d0cad5641.png

没有免费的午餐定理NFL:所有的学习算法总误差和期望值与算法无关。

59ae51db03738704e6100db7c231128b.png

如上图,对于某些问题,A可能优于B,但一定会相应存在一些情况B优于A。所以,具体问题具体分析。

习题:

1.1 表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间。

4583d2b98aaca734efc4dd040245ebab.png

51401e41eda436dca2f070e82daeb6bc.png

44964e2b688294c317eeeb17c3f8c29d.png


*

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值