西瓜书第一章学习笔记

一、基本术语

1.数据概念

1、“数据集”:记录的集合
2、“示例”或“样本”:反映事件或对象在某方面的表现或性质的事项
3、“属性”或“特征”:一个事物的特征,如书中介绍的西瓜的色泽
4、“属性值”:属性上的取值,如西瓜的青绿
5、“属性空间”或“样本空间”或“输入空间”:属性张成的空间

2.训练概念

1、“学习”或“训练”:从数据中学得模型的过程
2、“训练数据”:训练过程中使用的数据
3、“训练样本”:训练过程中的每一个样本
4、“训练集”:训练样本组成的集合
5、“假设”:学得模型对应了关于数据的某种潜在规律
6、“真相”或“真实”:潜在规律自身
7、“标记”:关于示例结果的信息
8、“样例”:拥有了标记信息的示例
(xi,yi)表示第i个样例,其中yi∈Y是示例xi的标记,Y是所有标记的集合,亦称“标记空间”或“输出空间”

3.学习任务

在这里插入图片描述
“测试”:使用学得模型进行预测的过程
“测试样本”:被预测的样本
“正类”,“反类”:“二分类”任务中的两类。
“多分类”:涉及多个类别
在“聚类”学习中将训练集中的样本分成若干组,每组成为一个“簇”
“泛化”:学得模型适用于新样本的能力
“独立同分布”:每个样本都是独立地从这个分布上采样获得

二、假设空间

在这里插入图片描述
狭义的归纳学习亦称“概念学习”或“概念形成”,布尔概念学习是最基本的概念学习,下面举一个布尔学习的例子,并通过该例引出假设空间及相关。

编号色泽根蒂敲声好瓜
1青绿蜷缩浊响
2乌黑蜷缩浊响
3青绿硬挺清脆
4乌黑稍卷沉闷

在这里插入图片描述
假设空间:所有假设组成的空间,假设的表示一但确定,假设空间及其规模大小就确定了。

版本空间:“假设空间”中与训练值一致的假设集合。

学习过程:在假设空间中进行搜索的过程。

这里我们建设形如“(色泽=?)∧(根蒂=?)∧(敲声=?)”的可能取值所形成的假设组成,例如“色泽”可取为“青绿”,“乌黑”及“﹡”(无论取什么值都合适)。以此类推,假设空间大小为3×4×4,除此之外有可能“好瓜”概念不成立,我们用∅表示假设空间规模大小为3×4×4+1。
在这里插入图片描述

根据表格所得版本空间(色泽=﹡,根蒂=蜷缩,敲声=浊响),(色泽=﹡,根蒂=﹡,敲声=浊响),(色泽=﹡,根蒂=蜷缩,敲声=﹡)。
在这里插入图片描述

三、归纳偏好

归纳偏好:机器学习算法在学习过程中对某种类型假设的偏好。任何一个有效的机器学习算法必须有其归纳偏好,否则它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。

在实际建模中,“奥卡姆剃刀”是一种常用的基本原则:若多个假设与观察一致,选择最简单的那个。

但根据NFL定理(No Free Lunch Theorem :天下没有免费的午餐)具体问题应具体对待,学习算法自身的归纳偏好与问题是否相配,往往起绝对作用。

  • 2
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

扬志九洲

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值