机器学习(周志华) 读书笔记

注:关于该系列,只为整理并记录个人学习过程中,遇到的知识点整理;

机器学习读书笔记(一)

第1章 绪论

1.1 引言

机器学习定义

机器学习一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科。机器学习所研究的主要内容,是关于在计算机上从数据中产生“模型(model)”的算法,即“学习算法”。

1.2 基本术语

数据集

一组记录的集合,其中,每条记录是关于一个事件或对象的描述,称为一个“示例”(instance)或“样本”(sample)。

属性或特征

反映事件或对象在某方面的表现或性质的事项,称为“属性”(attribute)或“特征”(feature);属性张成的空间称为“属性空间”、“样本空间”或“输入空间”。

由于空间中每个点对应一个坐标向量,因此,我们也把一个示例称为一个“特征向量(feature vector)”。

一般地,令 D = { x 1 , x 2 , ⋯   , x m } D = \lbrace x_1, x_2, \cdots , x_m \rbrace D={x1,x2,,xm} 表示包含 m m m 个示例的数据集,每个示例由 d d d 个属性描述,则每个示例 x i = ( x i 1 , x i 2 , ⋯   , x i d ) x_i = (x_{i1}, x_{i2}, \cdots, x_{id}) xi=(xi1,xi2,,xid) d d d 维样本空间 X X X 中的一个向量, x i ∈ X x_i \in X xiX,其中, x i j x_{ij} xij x i x_i xi 在第 j j j 个属性上的取值, d d d 称为样本 x i x_i xi 的“维数”(dimensionality)。

从数据中学得模型的过程称为“学习”(learning) 或“训练”(training),这个过程通过执行某个学习算法来完成。训练过程中使用的数据称为“训练数据”(training data),其中,每个样本称为一个“训练样本”(training sample),训练样本组成的集合称为“训练集”(training set)。学得砸开对应了关于数据的某种潜在的规律,因此,亦称为“假设”(hypothesis);这种潜在规律自身,则称为“真相”或“真实”,学习过程就是为了找出或逼近真相。有时将模型称为“学习器”(learner),可看作学习算法在给定数据和参数空间上的实例化。

要建立关于“预测”的模型,我们需要获得训练样本的“结果”信息。这里关于示例的信息,称为“标记”(label);拥有了标记信息的示例,则称为“样例”(example)。一般地,用 ( x i , y i ) (x_i, y_i) (xi,yi) 表示第 i i i 个样例,其中, y i ∈ Y y_i \in Y yiY 是示例 x i x_i xi 的标记, Y Y Y 是所有标记的集合,亦称“标记空间”(label space) 或“输出空间”。

分类和回归

若我们欲预测的是离散值,此类学习任务称为“分类”(classification);若欲预测的值是连续值,则此类学习任务称为“回归”(regression)。对只涉及两个类别的“二分类”(binary classification) 任务,通常称其中一个类为“正类”(positive class),另一个类为“反类”(negative class);涉及多个类别时,则称为“多分类”任务。一般地,预测任务是希望通过对训练集 { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x m , y m ) } \lbrace (x_1, y_1), (x_2, y_2),\cdots , (x_m, y_m) \rbrace {(x1,y1),(x2,y2),,(xm,ym)} 进行学习,建立一个从输入空间 X X X 到输出空间 Y Y Y 的映射 f : X ↦ Y f: X \mapsto Y f:XY。对二类分类任务,通常令 Y = { − 1 , + 1 } Y = \lbrace -1, +1 \rbrace Y={1,+1} { 0 , 1 } \lbrace 0, 1\rbrace {0,1};对多分类任务, ∣ Y ∣ > 2 |Y| > 2 Y>2; 对回归任务, Y = R Y = \mathbb{R} Y=R , R \mathbb{R} R 为实数集。

聚类

我们还可以对训练样本进行聚类,即将训练集中的样本分成若干组,每组称为一个“簇”(cluster),这些自动形成的簇可能对应一些潜在的概念划分,这样的学习过程有助于我们了解数据内存的规律,能为更深入地分析数据建立基础。需要说明的是,在聚类学习中,学习过程中使用的训练样本通常不拥有标记信息。

有监督学习和无监督学习

分类和回归是有监督学习的代表,聚类则是无监督学习的代表。

泛化能力

学得的模型适用于新样本的能力,称为“泛化能力”(generalization),具有强泛化能力的模型能很好地适用于整个空间。

通常我假设样本空间中全体样本服从一个未知“分布”(distribution) D D D ,我们获得的每个样本都是独立地从这个分布上采样获得的,即“独立同分布”(independent and identically distributed, 简称 i . i . d . i.i.d. i.i.d.). 一般而言,训练样本越多,我们得到的关于 D D D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型;

1.3 假设空间

归纳(induction)与演绎(deduction)是科学推理的两大基本手段。前者从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律,后者则是从一般到特殊的“特化”(specialization)过程,即从基础原理推演出具体状况。“从样例中学习”,显然是一个归纳的过程,因此亦称“归纳学习”(inductive learning)。

1.4 归纳偏好

机器学习在学习过程中,对某种类型假设的偏好,称为“归纳偏好”(inductive bias),或简称为“偏好”。对于一个具体的学习算法而言,它必须要产生一个模型。这时,学习算法本身的“偏好”就会起到关键作用。

任何一个有效的机器学习算法必有其归纳偏好,否则,它将被假设空间中看似在训练集上“等效”的假设所迷惑,而无法产生确定的学习结果。

1.4.1奥卡姆剃刀原则(Occam’s razor)

“奥卡姆剃刀”是一种常用的、自然科学研究中最基本的原则,即“若有多个假设与观察一致,则选最简单的那个”。该原则,也常用来作为引导机器学习算法确立正常“偏好”的一般原则;

事实上,归纳偏好对应了学习算法本身所做出的关于“什么样的模型更好”的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

1.4.2 没有免费午餐定理(No Free Lunch Theorem,简称 NFL 定理)

该定理的结论是,由于对所有可能函数的相互补偿,最优化算法的性能是等价的。该定理暗指,没有其它任何算法能够比搜索空间的线性列举或者纯随机搜索算法更优。该定理只是定义在有限的搜索空间,对无限搜索空间结论是否成立尚不清楚。

NLF 定理

1)对所有可能的的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值相同;

2)对任意固定的训练集,对所有的目标函数求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

3)对所有的先验知识求平均,得到的所有学习算法的“非训练集误差”的期望值也相同;

4)对任意固定的训练集,对所有的先验知识求平均,得到的所有学习算法的的“非训练集误差”的期望值也相同。

NFL定理表明没有一个学习算法可以在任何领域总是产生最准确的学习器。不管采用何种学习算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。

NFL 定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。

算法,至少存在一个目标函数,能够使得随机猜测算法是更好的算法。

NFL 定理有一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。

NFL 最重要的寓意,是让我们清楚地认识到,脱离具体问题,空泛地谈论“什么学习算法更好”毫无意义。因为若考虑到潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题; 在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值