1. 2 监督学习

个人随感,不可轻信,如有意见,欢迎指点。

统计学习包括监督学习、非监督学习、半监督学习及强化学习。

1.2.1 监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测,计算机的基本操作就是给定一个输入,产生一个输出。

1.2.1 基本概念:

1、 输出空间、特征空间与输出空间

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间与输出空间,输入与输出空间可以是有限元素的集合, 也可以是整个欧式空间,输入空间与输出空间可以是同一个空间,也可以是不同的空间,但通常输出空间远远小于输入空间。

每个具体的输入是一个实例(instance),通常由特征向量(feature vector)表示, 这时,所有的特征向量存在的空间称为特征空间(feature space)。特征空间的每一维对应于一个特征。

在监督学习过程中,将输入与输出看做是定义在输入(特征)空间与输出空间上的随机变量的取值,输入、输出变量用大写字母表示,习惯上输入变量写作 X,输出变量写作 Y, 变量可以是标量或向量,都用相同类型字母表示,输入实例 x 的特征向量记作:

x = (x^(1),^, x ^(2)^, …… x^(n)^ ) ^T^

输入空间可以看做由 n 维特征构成的空间,如输入有两个特征组成,那么输入空间就可以看成 由 x 和 y 轴构成的二维平面,每一个具体的输入都可以对应输入空间上的一个点,或者是一个特征向量。

监督学习从训练数据集合中学习模型,对测试数据进行预测,训练数据由输入(或特征向量)与输出对组成,训练集通常表示为:

T = { (x~1~ , y~1~), (x~2~, y~2~),…(x~N~,y~N~) }

输入与输出对又称为样本或样本点。

2、 联合概率分布—— 监督学习关于数据的基本假设

监督学习假设输入与输出的随机变量X 和 Y 遵循联合概率分布 P(X, Y)。 P(X,Y)表示分布函数或分布密度函数。

对学习系统来说,联合概率分布的具体定义是未知的,训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。 统计学习假设数据存在一定的统计规律, X 和 Y 具有联合概率分布的假设就是监督学习关于数据的基本假设。

3、 假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示, 学习的目的就在于找到最好这样的模型,模型属于由输入空间到输出空间的映射集合, 这个集合就是假设空间(hypothesis space),假设空间的确定意味着学习范围的确定。

监督学习的模型可以是概率模型或非概率模型,由条件概率分布 P(Y | X)或决策函数(decision function) Y = f(X) 表示,随具体学习方法而定,对具体的输入进行相应的输出预测时, 写作 P(y | x) 或 y = f(x)

1.2.2 问题的形式化

监督学习利用训练数据集学习一个模型, 再用模型对测试样本集进行预测(prediction)。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习,监督学习分为学习和预测两个过程, 由学习系统预测系统完成,
在这里插入图片描述
在学习过程中,学习系统(也就是学习算法)试图通过训练数据集中的样本(xi, yi) 带来的信息学习模型,具体的说, 对于一个具体的模型 y = f(x) 可以产生一个输出 f(xi) ,而训练数据集中对应的输出是 yi ,如果这个模型有很好的预测能力,训练样本输出 yi 和模型输出 f(xi) 之间的差就应该足够小。 学习系统通过不断的尝试,选择最好的模型, 以便对训练数据集有足够好的预测,同时对未知的测试数据集的预测也有尽可能好的推广。

对于机器学习来说,学习的过程就像是增加阅历的过程,就像我们小时候父母总是告诉我们,这个是猫,这个是狗,以后的日子里我们会增加与这些事物接触的频率,进而我们学习到了什么是猫,什么是狗, 个人认为模型就像是我们的大脑一样,随着我们阅历的增长,我们在面对问题时会更可能做出正确的选择,如果还有问题,那么说明我们学到还不够(即输入的数据还不够)又或者我们没有将数据成功转化为我们自己的知识(即模型自己的目标函数或者决策函数)

即机器学习的过程其实与我们成长的过程是一致的,如何利用有限的资源使我们的各方面能力更强,监督学习就像是我们的解题能力, 题目总是有答案的, 所以我们总能够得到反馈进而去调整我们的解题能力,在面对不同的题时更好的做出答案, 而无监督学习更像是我们解决问题的能力,我们常常会遇到各方面的问题,解决问题不像做题一样,它没有答案,但是又有些提示性的规范,我们只能通过多次问题的解决来得到一个适用于大多数问题的不那么具体的综合方法,但是不同的问题又需要不同的解决方法

1.3 统计学习三要素

方法 = 模型 + 策略 + 算法

可以说构建一种统计学习方法就是确定具体的统计学习三要素。

1.3.1 模型

统计学习首要考虑的问题是学习什么样的模型, 在监督学习过程中,模型就是所要学习的条件概率分布或决策函数, 模型的假设空间(hypothesis space) 包含所有可能的条件概率分布或决策函数, 假设空间的模型有无穷多个, 例如我们常说的一百个人眼里有一百个哈姆雷特,可见每个人的针对哈姆雷特的形象的模型是不同的。

模型这个词,让我想到了另一个词 “ 图式”, 图式就是指:我们如何认识世界、如何理解世界,一旦形成了固定的“认知图式” ,就会倾向于巩固这一图式, 我们对自己有图式,我们对某个人有图式,我们对世界的任何一个事物都有图式,我认为 对于机器学习中的模式 ,我们就可以把它看做 人成长过程中的“图式”, 刚才我们说到的一百个人眼里有一百个哈姆雷特,这就是不同的人对于汉姆雷特有着自己的图式,而不同的机器根据它输入的数据(类似于我们过去的经历,不都说,人是由过去的经历所组成)而具有不同的模型。

多说一句,为什么合作是如此的重要,因为多一个人,就多一个角度,多一个图式去看待问题,有时候我总是在想为什么我不能分身呢,这样我就不需要其他人就可以完成团队项目了,因为我很头疼合作,需要决策、组织、沟通等等,但是在之后的合作中,我发现当有些问题别人给出的观点往往是我所想不到的,这就是合作的意义,如果永远是一个人,没有与他人进行交互,你的思维模式、认知结构就会固化,我们可能看过很多影视剧,知道改变的困难,江山易改本性难移,个人认为就是因为他们已经完全被图式所控制,我所在做的事,我所喜欢的东西,很多人会认为这就是我想要的,其实没有真正问过自己,就像我喜欢玩游戏,但是很多时候我发现,玩游戏并没有带给我那种快乐,但是我还是忍不住点开下一局,为什么,是不是很多时候是我们那套固化的思维成为了脱缰之马,我们就是马上的人,想要勒马但是也只能被马所带跑,就像我已经固化了思维游戏是有趣的,所以即使我已经对游戏的刺激感到迟钝,但是还是点击了下一局。所以有些时候多问问自己,如果我不做这些我必须要做的事,我会怎样? 就像我过去一直认为,自己的一天如果没有午睡就会崩溃,可是后来在尝试过一次没有午睡之后我发现,身体并没有你想的那么不堪,更多的是你的固化思维在操控你。

刚才说到了假设空间,即如前所说所有人对哈姆雷特的认知构成了这个假设空间,假设空间这里暂用 F 表示(存疑), 假设空间可以定义为决策函数的集合:

*F* = { f | Y = f(X) }

其中 X 和 Y 是定义在输入空间 X 和输出空间 y 上的变量,这时 F 通常是由参数向量决定的函数族:

F = { f| Y = f Θ(X), Θ ∈ R n}

参数向量 θ 取值与 n 维欧氏空间 R n ,也称为参数空间

1.3.2 策略

有了模型的假设空间, 统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型。

首先引入损失函数风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平均意义下模型预测的好坏。

1、损失函数和风险函数:
监督学习问题是在假设空间 F 中选取模型 f 作为决策函数,对于给定的输入 X ,由 f (X) 给出相应的输出 Y,这个输入的预测值 f(X) 与真实值 Y 可能一致也可能不一致, 用一个损失函数(loss function)或代价函数(cost function)来度量预测错误的程度,损失函数是 f(X) 和 Y 的非负实值函数, 记作L(Y, f(X))。

统计学习常用的损失函数有以下几种:
在这里插入图片描述
损失函数值越小,模型就越好,由于模型的输入,输出(X,Y)是随机变量,遵循联合分布 P(X,Y), 所有损失函数的期望是:
在这里插入图片描述
这是理论上模型 f(X) 关于联合分布 P(X, Y ) 的平均意义下的损失,称为风险函数(risk function) 或期望函数(expected loss)。

学习的目标就是选择期望风险最小的模型。 由于联合分布P(X, Y)是未知的, Rexp(f) 不能直接计算。 实际上,如果知道联合分布 P(X, Y) ,可以从联合分布直接求出条件概率分布 P(Y | X) ,也就不需要学习了, 正因为不知道联合概率分布,所以才需要进行学习,这样一来,一方面根据期望风险最小学习模型要用到联合分布,另一方面联合分布是未知的,所以监督学习就成为了 一个病态问题(ill-formed problem)。(如何解决?)

给定一个训练数据集:
T = {(x1 , y1), (x2, y2), …(xN , yN)}

模型 f (X) 关于训练数据集的平均损失称为 经验风险(empirical risk) 记作 Remp :
在这里插入图片描述
期望风险 Rexp(f) 是模型关于联合分布的期望损失, 经验风险是模型关于训练样本集的平均损失, 根据大数定律, 但样本容量 N 区域无穷时, 经验风险 Remp(f) 趋于 期望风险 Rexp(f) 。

所以一个很自然的想法出现 : 用经验风险估计期望风险

但是在现实中, 训练样本数目有限, 甚至很小, 所以用经验风险估计期望风险常常并不理想, 要对经验风险进行一定的矫正, 这就关系到监督学习的两个基本策略 :

1.  经验最小化与 结构风险最小化。

2、经验风险最小化与结构风险最小化:

  • (1)经验风险最小化

在假设空间、损失函数以及训练数据集确定的情况下, 经验风险函数式(1.10) 就可以确定, 经验风险最小化(ERM,empirical risk minimization)的策略认为, 经验风险最小的模型是最优的模型, 根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题
在这里插入图片描述
其中 , F 是假设空间。

当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广为采用。 比如,极大似然估计(maximum likelihood estimation)就是经验风险最小化的一个例子, 当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

概率(probability)和似然(likelihood),都是指可能性,都可以被称为概率,但在统计应用中有所区别。
1.概率是给定某一参数值,求某一结果的可能性的函数。
例如,抛一枚匀质硬币,抛10次,6次正面向上的可能性多大?
解读:“匀质硬币”,表明参数值是0.5,“抛10次,六次正面向上”这是一个结果,
概率(probability)是求这一结果的可能性。
2.似然是给定某一结果,求某一参数值的可能性的函数。
例如,抛一枚硬币,抛10次,结果是6次正面向上,其是匀质的可能性多大?
解读:“抛10次,结果是6次正面向上”,
这是一个给定的结果,问“匀质”的可能性,即求参数值=0.5的可能性。

当样本容量很小时, 经验风险最小化学习的效果就未必很好,会产生后面将要叙述的 “ 过拟合(over-fitting)”现象。

  • (2)结构风险最小化(structural risk minimization SRM)

是为了防止过拟合而提出来的策略, 结构风险最小化等价于正则化(regularization). 结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term), 在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:
在这里插入图片描述

其中 J(f) 为模型的复杂度, 是定义在假设空间 F 上的泛函, 模型 f 越复杂, 复杂度 J(f)就越大,(想想决策树的泛化误差估计), 反之, 模型 f 越简单, 复杂度 J(f) 也就越小。

也就是说,复杂度表示了对复杂模型的惩罚, λ >= 0 是系数, 用以权衡经验风险和模型复杂度,, 结构风险小需要经验风险与模型复杂度同时小, 结构风险小的模型往往对训练数据以及未知的测试数据都有较好的预测。(因为过拟合现象一般都是由于模型复杂度过高,泛化不好,但它的经验风险确实小,引入结构风险可以平衡二者,避免过拟合的发生。)

比如, 贝叶斯估计中的最大后验概率估计(maximum posterior probability estimation, MAP)就是结构风险最小化的一个例子。 当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大化后验概率估计。

结构风险最小化的策略认为结构风险最小的模型是最优的模型, 所以求最优模型,就是求解最优化问题:
在这里插入图片描述
这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题,这时经验或结构风险函数是最优化问题的目标函数。

1.3.3 算法

算法是指学习模型的具体计算方法。 统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型, 最后需要考虑用什么样的计算方法求解最优模型。

这是,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法, 如果最优化问题有显示的解析解, 这个最优化问题就比较简单, 但通常解析解不存在,这就需要用数值计算的方法求解,如何保证找到全局最优解,并使求解的过程非常高效, 就称为一个重要问题,统计学习可以利用已有的最优化算法,有时也需开发独自的最优化算法。

统计学习方法之间的不同,主要来自于其模型、策略、算法的不同,确定了模型、策略、算法,统计学习的方法也就确定了,这就是将其称为统计学习三要素的原因。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值