西瓜书(绪论)

机器学习:计算机从数据中产生“模型”的算法

1.基本术语

数据集:记录的集合(许多西瓜)

样本或示例:对于一个事件或对象的描述(一个西瓜)

特征或属性:反映事件或对象在某方面的表现或性质的事项(色泽,根蒂,敲声)

属性值:属性的取值(青,乌黑,清脆)

样本空间或属性空间或输入空间:属性张成的空间(色泽,根蒂,敲声作为三个坐标轴,一个描述西瓜的三维空间,每个西瓜有对应的坐标)

特征向量:空间中每一个点对应于一个坐标向量,一个示例作为一个特征向量

训练数据:训练过程中使用的数据

训练样本:其中每个样本

训练集:训练样本组成的集合

假设:学得模型对应关于数据的某种潜在的规律

真相或真实:潜在规律的本身

标记(label)

样例:拥有标记信息的示例——有时也称为样本

标记空间或输出空间:所有标记的集合

若预测的是离散值---->分类;预测的是连续值----->回归

二分类任务其中一个类为正类,另一个为 负类

多分类任务:通过对于带标记的训练集进行训练,建立一个从输入空间到输出空间的映射

测试:学得模型之后,使其进行预测的过程

测试样本:被预测的样本(不含标记)

聚类学习:把训练集分成若干个组,每个组成为一个蔟(cluster),对应一些潜在概念,其这些概念我们事先完全不知道,且在学习过程中使用的训练样本通常不拥有标记信息

监督学习---->有标记信息    分类、回归

无监督学习----->无标记信息    聚类

泛化能力:学得模型在新样本的能力

通常假设样本呢空间中全体样本服从一个未知的分布(distribution)D, 每个样本都是独立地从这个分布中采样及独立同分布(independent and identically distributed , iid

训练样本越多得到的分布信息越多,得到的泛化能力越强

2.假设空间

归纳(induction)和演绎(deduction)是科学推理的两大基本手段

概念学习与概念形成:从训练数据中学得概念

假设的表示一旦确定,假设空间及其规模大小也就确定了

例:色泽,根蒂,敲声每个有3种选择,4*4*4+1=65

版本空间:可能有多个假设与训练集一致,即存在着一个与训练集一致的假设集合(即:我们不收留与训练集相悖的假设)

一、分别考虑

现在一共有3个特征,如果我们只需要从3个特征中选取一个特征中作为最终的结果(这意味着剩余两个特征无关紧要),我们一共有3*3=9种可能;

如果我们需要从3个特征中选取2个特征作为最终的结果,则一共有C23∗3∗3=27种可能;

如果我们需要从3个特征中选取3个特征作为最终的结果,则一共有3∗3∗3=27种可能;

如果我们一个特征都不需要,恒真,则为一种可能;

如果我们发现什么特征都没有用,恒假,则为另外一种可能;

综上一共有65种可能。

二、 整体考虑

引入通配符,作为这个特征无关紧要的标志。

(∗+3个属性)(∗+3个属性)(∗+3个属性)+恒假=65种可能;

以上便是两种得到65的思路。

3.归纳偏好

归纳偏好或偏好:机器学习算法在学习过程中对某种假设的偏好

特征选择:对于”根蒂“还是”响声“更重视

奥卡姆剃刀是一种常见的、自然科学研究中基本的原则,即若有多个假设与观察一致,则选择最简单的那个

算法的归纳偏好是否与问题本身匹配,大多数时候决定了算法能否取得好的性能

NFL定理的含义:脱离具体问题,空谈什么学习算法更好毫无意义

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值