西瓜书《机器学习》阅读笔记之第一章绪论

第1章 绪论

1.1 引言

机器学习是一门学科

机器学习正是这样一门学科,它致力于研究如何通过计算的手段,利用经验来玫善系统自身的性能 [P0]

机器学习所研究的主要内容

是关于在计算机上从数据中产生"模型"(model) 的算法,即"学习算法" (learning algorithm).

有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时(例如看到一个没剖开的西瓜),模型会给我们提供相应的判断(例如好瓜) . [P0]

1.2 基本术语

特征feature/属性attribute

反映事件或对象在某方面的表现或性质的事项,例如"色泽"“根蒂”“敲声”,称为"属性"(attribute) 或"特征"(feature); [P1]

属性值

属性上的取值,例如"青绿"、“乌黑”,称为"属性值" (attribute value) [P1]

属性空间/样本空间/输入空间

属性张成的空间称为"属性空间" (attribute space) 、“样本空间” (sample space)或"输入空间"。例如我们把"色泽",“根蒂”,"敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置. [P1]

特征向量

由于样本空间中的每个点对应一个坐标向量,因此我们也把一个示例称为一个"特征向量" (feature vector) [P1]

样本维数

一般地,令 D = {x1,x2…xm } 表示包含 m 个示例的数据集,每个示例有d个属性描述(例如上面的西瓜数据使用了3个属性),则每个示例Xi = (Xi1; Xi2; . . . ; Xid) 是 d 维样本空间 X 中的一个向量 , Xi ε X , 其中 Xij 是xi在第 j 个属性上的取值(例如上述第3个西瓜在第 2 个属性上的值是"硬挺" ), d 称为样本xi的"维数" (dimensionality). [P1]

训练(training)相关术语
  1. 从数据中学得模型的过程称为 “学习”(learning)或"训练" (training) ,这个过程通过执行某个学习算法来完成.

  2. 训练过程中使用的数据称为 “训练数据” (training data) , 其中每个样本称为一个 “训练样本” (training sample) ,训练样本组成的集合称为 “训练集” (training set).

  3. 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设"(hypothesis); 这种潜在规律自身,则称为"真相"或"真实"(ground-truth) ,学习过程就是为了找出或逼近真相.本书有时将模型称为"学习器"(learner) ,可看作学习算法在给定数据和参数空间上的实例化. [P1]

在这里插入图片描述

标记、样例

例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" ,“好瓜"这个样本的“结果”信息称为"标记”(label);

拥有了标记信息的示例,则称为 “样例”(example).

一般地,用(xi, yi) 表示第 i 个样例, 其中yi ε Y 是示例xi的标记
Y是所有标记的集合, 亦称"标记空间"(label sapce)或"输出空间" [P1]

分类(二分类|多分类)、回归
  • 若欲预测的是离散值(例如好瓜、坏瓜),此类学习任务称为 “分类”(classification);

  • 若欲预测的是连续值(例如西瓜成熟度0.95、0.37) ,此类学习任务称为 “回归” (regression).

一般地,预测任务是希望通过对训练集 {(x1, y1) , (x2 , y2) ,…, (xm, ym)} 进行学习,建立一个从输入空间 X 到输出空间 Y 的映射f: X --> y.

  • 对二分类任务,通常令 Y= {-1,+1} 或 {0, 1};
  • 对多分类任务,IYI >2;
  • 对回归任务, Y= R(R为实数集). [P2]
二分类与多分类
  1. 对只涉及两个类别的 “二分类” (binary classification)任务,通常称其中一个类为 “正类” (positive class), 另一个类为"反类/负类" (negative class);
  2. 涉及多个类别时,则称为 “多分类” (multi-class classificatio)任务.

测试、测试样本

学得模型后,使用其进行预测的过程称为 “测试”(testing) ,被预测的样本称为 “测试样本" (testing sample).

例如在学得 f 后,对测试例 x ,可得到其预测标记y = f(x). [P2]

聚类
  1. 将训练集中的数据分成若干组,每组称为一个"簇"(cluster);
  2. 这些自动形成的簇可能对应一些潜在的概念划分,有助于我们了解数据内在的规律,能为更深入地分析数据建立基础. [P2]
聚类与分类的区别

聚类与分类的区别在于类别是否已知?

  1. 分类是根据数据的特征将数据划分到已知的类别
  2. 聚类则是未知的分类,将特征相似的数据聚成一类,从而聚成几个类别。

监督学习、无监督学习

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类"监督学习"(supervised learning) 和"无监督学习" (unsupervised learning) [P2]

  • 分类和回归是监督学习的代表
  • 聚类则是无监督学习的代表.

泛化能力

学得模型适用于新样本的能力,称为"泛化"(generalization) 能力.

一般来说,训练样本越多,得到的关于D(分布)的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。


1.3 假设空间

归纳学习

“从样例中学习"显然是一个归纳的过程,因此亦称"归纳学习” (inductive learning). [P3]

假设空间

特征属性的所有可能取值组合成的假设集合,再加上空集就是假设空间。 [P4]

版本空间

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为"版本空间" (version space). [P4]

版本空间(百度词条)

对于二维空间中的“矩形”假设(概述图),绿色加号代表正类样本,红色小圈代表负类样本。
GB 是最大泛化正假设边界(maximally General positive hypothesis Boundary), SB 是最大精确正假设边界(maximally Specific positive hypothesis Boundary).
GB与SB所围成的区域中的矩形即为版本空间中的假设,也即GB与SB围成的区域就是版本空间。
在一些需要对假设的泛化能力排序的情形下,就可以通过GB与SB这两个上下界来表示版本空间。在学习的过程中,学习算法就可以只在GB、SB这两个代表集合上操作。
在这里插入图片描述


1.4 归纳偏好

归纳偏好/偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) , 或简称为"偏好" [P5]

假设类型
  • 尽可能特殊即”使用情形尽可能少“;
  • 尽可能一般即”适用情形尽可能多“

偏好的意义

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上等效的假设所迷惑,而无法产生确定的学习结果 [P5]

拿西瓜算法举例,若算法没有偏好,则每次在进行预测时随机抽选训练集上的等效假设,那么对新瓜(之前没有见过的瓜),学得模型时而告诉我它是好的,时而告诉我它是不好的,这样得学习结果显然是没有意义得。


奥卡姆剃刀

归纳偏好可看作是学习算法自身在一个可能很庞大得假设空间中对假设进行选择的启发式或“价值观”。
那么,有没有一般性的原则来引导算法确立“正确的”偏好呢?

“奥卡姆剃刀”(Occam’s razor)是一种常用的、自然科学
研究中最基本的原则。

即"若有多个假设与观察一致,则选最简单的那个" [P6]

作用:作为一种一般性的原则来引导算法确立"正确的"偏好"。


归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设.在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能. [P6]

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Honyelchak

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值