西瓜书读书笔记—绪论

机器学习

机器学习:致力于研究如果通过计算的手段,利用经验来改善系统自身的性能

在计算机系统中,“经验” 通常以 “数据” 形式存在,因此,机器学习所研究的主要内容,是关于在计算机上从数据中产生 ”模型“ (model) 的算法,即 ”学习算法“ (learning algorithm).

有了学习算法,我们把经验数据提供给它,它就能基于这些数据产生模型;在面对新的情况时,模型会给我们提供相应的判断.

典型的机器学习过程

在这里插入图片描述

基本术语

要进行机器学习,先要有数据. 假定我们收集了一些关于西瓜的数据,如下表所示:

色泽根蒂敲声好瓜
青绿蜷缩浊响
乌黑蜷缩浊响
青绿硬挺清脆
乌黑稍缩沉闷
  • 示例 (instance):表中每一行是一条记录,每条记录是关于一个事物或对象的描述,称为一个 ”示例“

  • 属性 (attribute):反应事物或对象在某方面的表现或性质的事项,例如表中 ”色泽“、”根蒂“ 称为属性或 特征 (feature); 属性上的取值,例如 ”青绿“、”乌黑“ ,称为属性值 (attribute value)

  • 属性空间 (attribute space):属性张成的空间称为 ”属性空间“ 、”样本空间“ 或”输入空间“. 例如我们把 “色泽”、“根蒂”、“敲声”作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间,每个西瓜都可在这个空间中找到自己的坐标位置

    • 在这里插入图片描述
  • 学习(learning)、训练(training):从数据中学得模型的过程称为学习或训练,这个过程通过执行某个学习算法来完成。

  • 假设(hypothesis):学得模型对应了关于数据的某种潜在的规律,亦称假设;这种潜在规律自身,则称为 “真相” 或 “真实”,学习过程就是为了找出或逼近真相

  • 标记(label):训练样本中关于结果的信息,例如 “好瓜”

  • 分类(classification):若我们预测的是离散值,例如“好瓜”、“坏瓜”,此类学习任务称为分类

  • 回归(regression):若预测的是连续值,例如西瓜的成熟度0.95、0.56,此类学习任务称为回归

  • 聚类(clustering):将训练集中的数据分为若干组,每组称为一个簇(cluster),这些簇可能对应一些潜在的概念划分;在聚类学习过程中使用的训练样本通常不具有标记信息

  • 监督学习(supervised learning)|无监督学习(unsupervised learning):根据训练数据是否拥有标记信息,学习任务可大致分为监督学习无监督学习.分类和回归是前者的代表,聚类是后者的代表.

  • 泛化(generalization):学得模型适用于新样本的能力,称为泛化能力.

  • 版本空间(version space):现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的 “假设集合”,称之为版本空间

归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为 “归纳偏好”或简称 “偏好”

任何一个有效的学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上 “等效” 的假设所迷惑,而无法产生确定的学习结果.

引导算法确立 “正确的” 偏好的一般性原则:奥卡姆剃刀

奥卡姆剃刀

  • 若非必要,勿增实体
  • 若有多个假设与观察一致,则选最简单的那个

例如,方程式 y = − x 2 + 6 x + 1 y=-x^2+6x+1 y=x2+6x+1 与方程式 y = − x 3 + 1 y=-x^3+1 y=x3+1 相比,若我们认为次数越小越简单,则前者更简单;若认为方程式的项数越少越简单,则后者更简单.

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值