西瓜书/南瓜书 第1、2章笔记总结

一、机器学习三观:what、why、how

what:什么是机器学习?

机器学习是研究关于“学习算法”(一类能从数据中得出其背后潜在规律的算法)的一类学科

why:为什么要学习机器学习

从事机器学习理论的研究、系统的开发,将其中算法迁移到自己从事的研究领域,从事AI研究

how:怎样学机器学习?

本书只涉及基础的理论研究内容。当前机器学习尚处于工程领先理论阶段,还有很多的未解之谜。

二、基本术语

样本(sample):也称为“示例(instance)”,是关于是个事件或对象的描述。

一般来说,带有标记的称为样本,不带标记的称为示例

eg:一个“色泽青绿、根蒂蜷缩、敲声清脆”的西瓜可用向量表示为:

x = (青绿;蜷缩;清脆)

向量中的各个维度称为“特征(feature)”或“属性(attribute)”,比如例子中的“色泽、根蒂、敲声”

属性上的取值,称为“属性值(attribute value)”,比如例子中的“青绿;蜷缩;清脆”

图1

属性张成的空间称为“属性空间(attribute space)”、“样本空间(sample space)”或“输入空间”,用花式大写X表示

如图1,以“色泽”、“根蒂”、“敲声”为坐标轴张成一个用于描述西瓜的三维空间,每个西瓜都能在空间中找到自己的坐标位置。

由于空间中的每个点对应一个坐标向量,因此我们也把一个势力称为一个“特征向量(feature vector)”

向量中的元素用分号“;”分隔时表示此向量为列向量,用逗号“,”分隔时表示为行向量。

特征工程:将属性值按一定的规则变为计算机可识别的数字

标记(label):机器学习的本质就是在学习样本在某个方面的表现是否存在潜在的规律,该方面的信息称为“标记”

标记通常也看做样本的一部分,因此,一个完整的样本通常表示为(x,y)

eg:一个西瓜样本:x = (青绿;蜷缩;清脆),y = 好瓜

标记空间(label space):类比样本空间,标记所在的空间,也称“输出空间”,用花式大写Y表示

根据标记的取值类型不同,可将机器的学习任务分为两种:

分类(classification):标记取离散值,比如一颗瓜为好瓜或坏瓜。涉及多个类别时称为“多分类(multi-class classification)”任务,研究多分类问题时通常将其分解为二分类问题。分类只涉及两个类别是称为“二分类(binary classification)”任务,通常称其中一个为“正类(positive class)”另一个为“反类(negative class)”,正反类的划分不固定可以互相交换,通常记正类为1,反类为0,即Y= {0,1}

回归(regression):标记取连续值,例如一颗西瓜的成熟度0.95、0.37。由于是连续型,因此标记的所有可能无法直接罗列,通常只有取值范围,回归任务的取值范围通常是整个实数域R,即Y = R

根据是否有用到标记,可将机器学习任务分为以下两类:
模型训练阶段有⽤到标记信息时,称此类任务为“监督学习(supervised learning)”,例如线性模型
在模型训练阶段没⽤到标记信息时,称此类任务为“⽆监督学习(unsupervised learning)” ,例如聚类
数据集(data set):数据集通常用集合来表示,令集合 D = { x1, x2,......, xm}表示包含m个样本的数据集,一般同一份数据集中的每个样本都含有相同个数的特征,假设此数据集中的每个样本都含有d个特征,则第i个样本的数学表示为d维向量: xi = ( xi1;  xi2; xi3; ... ; xid),其中 xij表示样本 xi在第j个属性上的
模型:机器学习的⼀般流程如下:⾸先收集若⼲样本(假设此时有100个),然后将其分为训练样本(training sample)(80个)和测试样本(20个),其中80个训练样本构成的集合称为“训练集(training set)” ,20个测试样本构成的集合称为“测试集”,接着选⽤某个机器学习算法,让其在训练集上进⾏“学习(learning)”或称为“训练(training)”,然后产出得到“模型”(或称为“学习器(learner)”),最后⽤测试集来测试模型的效果。执⾏以上流程时,表示我们已经默认样本的背后是存在某种潜在的规律,我们称这种潜在的规律为“真相(ground-truth)”,例如样本是⼀堆好西瓜和坏西瓜时,我们默认的便是好西瓜和坏西瓜背后必然存在某种规律能将其区分开。当我们应⽤某个机器学习算法来学习时,产出得到的模型便是该算法所找到的它⾃⼰认为的规律,由于该规律通常并不⼀定就是所谓的真相,所以也将其称为“假设(hypothesis)” 。通常机器学习算法都有可配置的参数,同⼀个机器学习算法,使⽤不同的参数配置或者不同的训练集,训练得到的模型通常都不同。
泛化(generalization): 由于机器学习的⽬标是根据已知来对未知做出尽可能准确的判断,因此对未知事 物判断的准确与否才是衡量⼀个模型好坏的关键,我们称此为“泛化”能⼒
分布(distribution): 此处的“分布”指的是概率论中的概率分布,通常假设样本空间服从⼀个未知“分 布” D,⽽我们收集到的每个样本都是独⽴地从该分布中采样得到,即“独⽴同分布” 。通
常收集到的样本越多,越能从样本中反推出D的信息,即越接近真相

三、假设空间和版本空间

将学习过程看作是一个在所有假设组成的空间中进行搜索的过程,搜索的目的是找到与训练集“匹配(fit)”的假设。假设的表示一旦确定,假设空间及其规模大小就确定了。通过多种策略对这个假设空间进行搜索,如自上而下、从一般到特殊或是反其道而行之,搜索过程中不断删除与正例不一致的假设、和(或)与反例一致的假设,最终获得与训练及一致(及对所有训练样本都能正确判断)的假设,即为学得结果。

例子:假设现已收集到某地区近⼏年的房价和学校数量数据,希望利⽤收集到的数 据训练出能通过学校数量预测房价的模型,具体收集到的数据如下表所示:

    

则其存在多种假设
假设空间:一元一次函数          算法:线性回归          模型:  
假设空间:一元二次函数          算法:多项式回归      模型:
将所有能够拟合训练集的模型(假设)构成的集合称为“ 版本空间(version space)”。

四、归纳偏好(inductive bias)

机器学习算法在学习的过程中对某种类型假设的偏好,称为“归纳偏好”或简称为“偏好”

为了防止机器学习算法被假设空间中在训练集上看似“等效”的假设迷惑,而无法产生确定的学习结果,任何一个有效的机器学习算法必有其偏好

有没有一种一般性原则人引导算法确立“正确的”偏好?

奥卡姆剃刀(Occam's razor)——若有多个假设与观察一致,则选最简单的那个

如非必要,勿添实体

但是运用奥卡姆剃刀原则是应注意对于“简单”的定义并不简单,往往需要借助其他机制来解决对于“简单”的定义问题。

事实上,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法是否能取得好的性能

NFL(No Free Lunch)定理:一个算法A在某些问题上比另一个算法B好,则比存在另一些问题B比A好。

如果我们精心设计的算法与随便乱猜的算法数学期望一致,那么我们的学习算法是无意义的吗?

当然不是,NFL定理的重要前提是所有问题出现的机会相等、或所有问题同等重要。但实际上我们关注的只有自己在解决的问题。

那么NFL定理的意义是什么呢?其实它最重要的寓意是脱离具体问题,空泛的谈论“什么算法更好”毫无意义。——具体问题,具体分析

五、数据决定模型的上限,算法让模型无限逼近这个上限。

数据决定模型效果的上限:其中数据是指从数据量和特征⼯程两个⻆度考虑。从数据量 的⻆度来说,通常数据量越⼤模型效果越好,因为数据量⼤即表示累计的经验多,因此模型学习到的经验也多,⾃然表现效果越好。例如以上举例中如果训练集中含有相同颜⾊但根蒂不蜷缩的坏⽠,模型a学到真相的概率则也会增⼤;从特征⼯程的⻆度来说,通常对特征数值化越合理,特征收集越全越细致,模型效果通常越好,因为此时模型更易学得样本之间潜在的规律。例如学习区分亚洲⼈和⾮洲⼈时,此时样本即为⼈,在进⾏特征⼯程时,如果收集到每个样本的肤⾊特征,则其他特征例如年龄、身⾼和体重等便可省略,因为只需靠肤⾊这⼀个特征就⾜以区分亚洲⼈和⾮洲⼈。
算法则是让模型⽆限逼近上限:是指当数据相关的⼯作已准备充分时,接下来便可⽤各种可适⽤的算法从数据中学习其潜在的规律进⽽得到模型,不同的算法学习得到的模型效果⾃然有⾼低之分,效果越好则越逼近上限,即逼近真相。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值