西瓜书+南瓜书学习Task1——第一章至第二章2.32

1.1机器学习简介

机器学习三观:what,why,how

(1)What : 研究关于“学习算法”的一门学科。

  • “算法”和学习算法的区别:算法指从数据中学得模型的具体方法;“学习算法”指一类能从数据中学习出其背后潜在规律的算法。

(2)Why : 为以后的职业选择提供知识储备。

  • 从事机器学习理论的研究;
  • 从事机器学习系统的开发;
  • 将机器学习中的算法迁移应用到自己的领域;
  • 从事AI应用方向的研究:如NLP,CV,推荐系统等。
  1. How : 学到何种程度?
  • 在学习过程中能看懂每一步基本推导过程即可不必达到熟稔于心的地步;
  • 会调用scikit-learn库即可,不用自行实现。

1.2基本概念定义及理解

(1)模型(学习器):泛指从数据中学得的结果。通常是具体的函数或者可以抽象的看作函数。如f(x)=3x+2,f(x)=x²等。

(2)数据集:通常用集合来表示。令集合D=\left \{ x_{1} ,{x_{2},...,x_{m}}^{}\right \}表示包含m个样本的数据集。一般同一份数据集中的每一份样本都含有相同个数的特征。假设此数据集中的每个样本都有d个特征,则第i个样本的数学表示为d维向量x_{i}=\left \{ x_{i1} ,{x_{i2},...,x_{id}}^{}\right \},其中表示样本在第j个属性上的取值。如1000条西瓜组成的数据集合。

(3)样本:也称作“示例”,是关于一个事件或对象的描述。如x_{i}=\left \{ x_{i1} ,{x_{i2},...,x_{id}}^{}\right \}(一条样本)。如书上举例:一个西瓜(色泽=青绿;根蒂=蜷缩;敲声=浊响)

(4)特征向量:空间中的点所对应的坐标向量,这里的点可以是一个示例。向量中各个元素用“;”分割称作列向量,用“,”分割称作是行向量。

通常情况下用特征向量的每个维度表示事件或对象在某方面的“属性”每个维度上的取值称为该维度的“属性值”。属性长成的空间称为“样本空间”,也称“输入空间”或“属性空间”。如(3)中例子的色泽,根蒂,敲声是属性;青绿,蜷缩,浊响是属性值,把三个属性值“色泽”“根蒂,”“敲声”作为三个坐标轴,张成一个三维空间用于描述西瓜,这个空间为样本空间。

(5)标记:机器学习的本质就是学习样本在某个方面的表现是否存在潜在的规律,我们称关于示例结果方面的信息为“标记”。如判断一个西瓜是否为好瓜,标记则为“好瓜”和“坏瓜”。

(6)标记空间:标记的集合,也称“输出空间”。

(7)学习(训练):从数据中学得模型的过程。其中,训练过程使用的数据叫“训练数据”,训练数据中的每一个样本(对象)叫“训练样本”,所有训练样本的集合叫“训练集”。

(8)预测:一般地,预测任务是希望通过对训练集进行学习,建立一个从输入空间到输出空间的映射。

(9)分类:预测的是离散值。如西瓜是否为好坏瓜。(监督学习)

(10)回归:预测的是连续值。如已知前一个月某地的日平均温度,预测第二天某地日平均气温的度数。(监督学习)

(11)泛化:学得模型适用于新样本的能力。

(12)正类、反类:“二分类”任务中,通常称其中一个为“正类”,另一个为“反类”。如“好瓜”被称为正类,则“坏瓜”被称为反类。

(13)测试:学得模型之后,使用其进行预测。被预测的样本称为“测试样本”。

(14)聚类:将一堆东西按某些依据分成几组。每组称为“簇”。其中“某些依据”是计算机通过自己学习自主获得的依据,人类并不知道。(无监督学习)

机器学习的一般流程如下:

(1)收集若干样本,然后将其分为训练样本和测试样本,其中训练样本构成的集合称为“训练集”;测试样本构成的集合称为“测试集”。

(2)接着选用某个机器学习算法,让其在训练集上进行“学习”。

(3)产出得到“模型”,最后用测试集来测试模型的效果。

1.3假设空间

(1)归纳:从特殊到一般。

从具体的事实总结出一般性的规律。

eg:燕子会飞,黄鹂会飞......\Rightarrow所有的鸟类动物会飞。

(2)演绎:从一般到特殊。

从一般性的基础原理推演出具体状况。

eg:著名三段论:人都会死;苏格拉底是人\Rightarrow苏格拉底会死。

(3)归纳学习:

广义的归纳学习: 从样例中学习。

狭义的归纳学习:从训练数据中学得概念,又称概念学习。

(4)假设空间:在所有可能存在的“关系”中,找到和“训练集输入与结果”相匹配的“关系”。个人理解指“所有映射”所组成的空间,即y=f(x)中的函数关系f()。

实例:书上给了西瓜案例计算假设空间数目,我认为应当这样理解:西瓜有“色泽”,“根蒂”,“敲声”三个属性,且他们分别有3、2、2种取值,除此之外还有一种可能,就是与该维度无关,用“*”来表示,因此每种属性可以有4、3、3种取值。又因为还有一种可能,就是“好瓜”这个概念不成立,需要取空集,因此有4*3*3+1=37种假设空间。

(5)版本空间:实际训练中,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为“版本空间”。

1.4归纳偏好

(1)机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好” ,当有多个符合要求的结果时,会根据“偏好”进行最终的选择。

(2)任何一个有效的机器学习算法必然有其归纳偏好,否则会出现结果不一致的问题。

(如果没有偏好,当有多个模型符合要求,可能这次选这个模型,下次选另一个模型,会出现结果不统一的问题)

(3)如何评判模型的优劣:

“奥卡姆剃刀原理”:若有多个假设与观察一致,则选最简单的那个。(x)(何为“简单”?需求不同,对“简单”的定义不同。)

我们需要基于模型在测试集上的表现来评判模型之间的优劣。(√)

NFL(没有免费的午餐定理):众算法生而平等。没有最优的算法,要根据实际情况选择算法。

2.1 经验误差与过拟合

错误率:分类错误的样本数占样本总数的比例。如m个样本中有a个样本分类错误,则错误率E=a/m。

精度:精度=1-错误率,即(1-a/m)*100%

误差:学习器的实际预测输出与样本的真实输出之间的差异。

训练误差:又称“经验误差”,学习器在训练集上的误差。

泛化误差:学习器在新样本上的误差。

过拟合:学习能力过于强大,把训练样本自身的一些特点当作是所有潜在样本都会具有的一般性质,使得其泛化能力下降

欠拟合:由于学习能力低下,无法作出准确判断。

实际应用中,使用不同的学习算法以及不同的参数会产生不同的模型,我们应尽力选择泛化误差最小的那个模型。

2.2评估方法

我们可以通过实验测试来对学习器的泛化误差进行评估进而做出选择,需使用一个测试集测试学习器对新样本的判别能力,以测试集上的测试误差作为泛化误差的近似。

留出法:将数据集D划分为两个互斥的集合,一个集合作为训练集S,另一个作为测试集T,在S上训练出模型之后,用T来评估其测试误差。  (要尽可能保持数据分布的一致性,才能避免数据划分过程中引入的额外偏差而对最终结果产生影响。因此,一般要采用若干次随即划分,分层采样,重复进行实验评估后取平均值作为评估结果。)

交叉验证法:将数据集D划分为k个大小相似的互斥子集,每个子集都尽可能保证数据分布一致性。每次用k-1个子集的并集作为训练集,剩下那个作为测试集。(稳定性和保真性很大程度上取决于k的取值)

自助法:给定m个样本构成数据集D,对其采样得到数据集D’ :每次随机从D中挑选一个样本,将其拷贝放入D’,然后再将该样本放回初始数据集中,使得该样本在下次采样的时候仍有可能被采到;重复执行m次,得到有m个样本的D’。  (适用于数据集较小,或难以划分训练/测试集的情况)

(上图表示自助法每个样本不会被采到的概率)。

最后进行参数调节,参数配置不同,学得模型的性能往往会有显著差别。

参数往往是在实数范围内取值,无法穷尽。

现实中的做法是:对参数选定一个范围和变化步长

例如:在[0 , 0.5] 范围内以 0.05 为步长 ,然后最终在这些参数里挑选结果最好的一个。

2.3性能度量

性能度量:是一种衡量模型泛化能力的评价标准,反映了任务需求;不同任务下不同的性能度量往往会导致不同的评判结果。

(1)均方误差

1.离散型:

理解:f(x_{i})-y_{i}即预测值与真实值之间的误差,其平方的平均数就是均方误差。

2.连续型:换成概率密度求积分即可。

(2)错误率和精度

1.错误率定义为:

即分类错误的样本数占样本总数的比例。

2.精度定义为:

即分类正确的样本数站样本总数的比例。二者对立,概率之和为1。

(3)查重率与查全率:

查全率(召回率): 结果的正样例中有多少被预测为正的样例。如:挑出的西瓜里有多少比例是好瓜。

查准率(准确率): 预测为正的样例中有多少是结果的正样例。如:所有好瓜有多少比例被挑了出来。

查准率和查全率是一对相互矛盾的量,一般不会出现“双高”。

除此,很多情形下,我们可根据学习器的预测结果对样例进行排序,
排在前面的是学习器认为"最可能 "是正例的样本,
排在最后的则是学习器认为"最不可能"是正例的样本。
按此顺序逐个把样本作为正例进行预测,
则每次可以计算出当前的查全率、 查准率。
以查准率为纵轴、查全率为横轴作图 ,就得到了 查准率-查全率曲线,
简称" P- R 曲线" , 显示该曲线的图称为 "P- R 图"。

P-R 图能较为直观地显示出学习器在样本总体上的查全率、查准率,并方便用于进行比较。

比较方法:

1、若一个曲线被另一个曲线完全“包住”(即查全率和查准率都高),则可以说后者性能优于前者,例如上图中的 A、C曲线。

2、若 P-R 曲线出现交叉,可以通过求曲线下面积进行比较,面积能一定程度上反应相对“双高”的比例,但不好求出。

3、由于面积不好求出,人们设置了平衡点(BEP),表示“查准点 = 查全率”时的取值。如图2.3所示,则可认为学习器A优于学习器B。

4、F1度量与Fβ度量:

β=1时退化为标准的F1;β>1 时,查全率优;β<1 时,查准率优。

最后,本文参考资料:

第1章-绪论_哔哩哔哩_bilibili

《机器学习》周志华著,清华大学出版社。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值