【机器学习西瓜书学习笔记——绪论】

第一章 绪论

1.2基本术语

示例/样本

所研究对象的一个个体。

特征/属性

反映事件或对象在某方面的表现或性质的事项

属性值

  • 属性上的取值,例如“青绿”“乌黑”
  • 属性张成的空间称为 “属性空间”(attribute space)、“ 样本空间”(sample space)或“输入空间”.

特征空间

  • 分别以每个特征作为一个坐标轴,所有特征所在坐标轴张成一个用于描述不同样本的空间,称为特征空间
  • 在该空间中,每个具体样本就对应空间的一个点,在这个意义下,也称样本为样本点。
  • 每个样本点对应特征空间的一个向量,称为 “特征向量
  • 特征的数目即为特征空间的维数。

样本集/数据集

若干样本构成的集合;该集合的每个元素就是一个样本

测试样本

学得模型后,使用该模型进行预测的过程称为“ 测试”, 被预测的样本称为“测试样本”.

标记(label)

训练样本的“结果”信息(好瓜)

二分类

  • 分类:欲预测的是离散值,例如“好瓜”“坏瓜”
  • 回归(regression):欲预测的是连续值,例如西瓜成熟度0.95、0.37

聚类

将训练集中的样本分成若干组,每组称为一个 “簇”(cluster)。

监督学习和无监督学习

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类: 监督学习和 无监督学习。

监督学习

通俗理解:草泥马和牛马的照片就叫做标签,反复的看理解为训练,形成的肌肉记忆叫做模型,这就是监督学习的过程。

监督学习主要包括:线性回归、逻辑回归、决策树、随机森林、支持向量机、朴素贝叶斯、k近邻算法。

无监督学习

通俗理解:直接让机器对这两个马儿进行分类。

无监督学习主要包括:聚类、PCA、关联规则挖掘。

半监督学习、弱监督学习、强化学习

半监督学习:利用同时包含标记样本和未标记样本的数据进行训练。
弱监督学习:标签信息不完整或不准确的监督学习问题。
强化学习:通过与环境的交互学习来做出决策和执行动作,以最大化累积奖励。

1.3假设空间

假设/假设空间:

  • 每一个具体的模型就是一个假设
  • 模型的学习过程就是一个在所有假设构成的假设空间进行搜索的过程,搜索的目标就是找到与训练集“匹配(fit)”的假设。

版本空间

基于有限规模的训练样本集进行假设的匹配搜索,会存在多个假设与训练集一致的情况,称这些假设组成的集合为版本空间。

  • 4
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值