周志华西瓜书学习笔记----绪论


前言

这篇文章将记录西瓜书中绪论的学习。


一、算法处理数据的流程

在我们训练一个模型前我们需要准备一些数据,训练集是历史数据。
请添加图片描述
当我们有一批新的数据时(测试集),我们将这些数据输入训练过的模型来得到每个数据对应的标签
请添加图片描述

二、假设空间是什么?

在我们使用数据集进行机器学习时,我们能用到的数据是有限的,而我们需要利用有限的数据通过算法拟合出一个能够广泛适用于这一类数据的模型。例如书中给出的数据表:
请添加图片描述
这个数据集很小,其中色泽,根蒂和敲声是属性,好瓜是标签,因此这个数据集应该使用监督学习(给出了标准答案label)。如果我们假设三个属性分别有3,2,2种取值,那么整个假设空间就有4x3x3+1=37种组合方式(因为每个属性的取值还可以是任意,且最终可以有空取值)。

  • 也就是说,假设空间是样本的所有可能的取值组合,如下

请添加图片描述
那么什么是假设?假设是假设空间中某一个取值组合,假设是一种判断的依据,是算法根据训练集得出的结论,例如基于上述训练集可能会得到好瓜是色泽任意,根蒂蜷缩和敲声浊响的假设,也可以得到好瓜是色泽任意,根蒂蜷缩和敲声任意的假设,这些假设会形成版本空间,版本空间中的每个假设都可以解释训练集的数据,但算法最终只会给出一个模型(一种假设)

  • 版本空间是能够解释训练的所有假设

三、归纳偏好

如何只给出一种假设?请添加图片描述

例如模型通过学习给出了这样一个版本空间,通过设置偏好来取出其中一个假设,例如我们认为声音是无关紧要的,那么算法就会选择左上角的假设。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值