Raki的统计学习方法笔记0x1章:统计学习及监督学习概论

统计学习关于数据的基本假设是同类数据具有一定的统计规律,这是统计学习的前提

统计学习的分类

监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。监督学习的本质是学习输入到输出的映射的统计规律

在监督学习中,将输入和输出看做是定义在输入特征空间与输出空间上的随机变量的取值

监督学习假设输入与输出的随机变量 X X X Y Y Y 遵循联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) P ( X , Y ) P(X,Y) P(X,Y)表示分布函数或者分布密度函数, X X X Y Y Y 具有联合概率分布是监督学习关于数据的基本假设

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示,换句话说,学习的目的就在于找到最好的这样的模型,模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间(这里涉及到了泛函的知识,花书里面有简单讲)

无监督学习

无监督学习是从无标注数据中学习预测模型的机器学习问题,无标注数据是自然得到的数据,预测模型表示数据的类别,转换或者概率,无监督学习的本质是学习数据中的统计规律或潜在结构。

无监督学习旨在从假设空间中选出在给定评价标准下的最优模型

强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。

假设只能系统与环境的互动基于马尔科夫决策过程,智能系统能观测到的是与环境互动得到的数据序列,强化学习的本质是学习最优的序贯决策。

半监督学习

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据,大量无标注数据。

半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。

主动学习

主动学习是指机器不断主动给实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题。
通常的监督学习使用给定的标注数据,往往是随机得到的,可以看做“被动学习”。

主动学习的目标是找出对学习最优帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果

概率模型和非概率模型

在监督学习中,概率模型是生成模型,非概率模型是判别模型

对于这两种模型可以这样理解,对于分类任务,判别模型是直接对数据建模出决策函数 Y = f ( X ) Y = f(X) Y=f(X) 或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),数据输出直接给出它的分类,而生成式模型是的对联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 进行建模,然后通过条件概率 P ( Y ∣ X ) = P ( X , Y ) P ( X ) \large P(Y|X) = \frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y) 来判断模型的分类,生成模型表示了给定输入 X X X 产生输出 Y Y Y 的生成关系

线性模型和非线性模型

如果函数 y = f ( x ) y = f(x) y=f(x)线性函数,则称模型是线性模型,否则称模型为非线性模型

参数化模型和非参数化模型

参数化模型假设模型参数的维度固定,模型可以由有限维参数完全刻画;非参数化模型建设模型参数的维度不固定或者为无穷大,随着训练数据量增加而不断增大

在线学习与批量学习

在线学习是指每次接受一个样本,进行预测,之后学习模型,并不断重复该操作的机器学习

批量学习一次接受所有数据,学习模型,之后进行预测

贝叶斯学习

贝叶斯学习的主要想法是,在概率模型的学习和推理中,利用贝叶斯定理,计算在给定数据条件下模型的条件概率,即后验概率,并应用这个原理进行模型的估计,以及对数据的预测。

将模型,未观测要素以及其参数用变量表示(而统计学派是将其视为定值)

核方法

核方法是使用核函数表示和学习非线性模型的一种机器学习方法。

把线性模型扩展到非线性模型,直接的做法是显示地定义从输入空间到特征空间(高维空间,比如希尔伯特空间)的映射,在特征空间中进行内积计算

核方法的技巧在于不显示地定义这个映射,而是直接定义核函数,即映射之后在特征空间的内积,这样可以简化计算,达到相同的效果。

统计学习方法三要素

方法 = 模型 + 策略 + 算法

模型

统计学习首要考虑的问题是学习什么样的模型,在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间包含所有可能的条件概率分布或决策函数

策略

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或选择最优的模型,统计学习的目标在于从假设空间中选取最优模型

损失函数度量一次预测的好坏,风险函数度量平均意义下模型预测的好坏

期望风险 R e x p ( f ) R_{exp}(f) Rexp(f)模型关于联合分布的期望损失, 经验风险 R e m p ( f ) R_{emp}(f) Remp(f)模型关于训练样本集的平均损失。根据大数定律,当样本容量N趋于无穷时,经验风险 R e x p ( f ) R_{exp}(f) Rexp(f)趋于期望风险 R e m p ( f ) R_{emp}(f) Remp(f)。所以一个很自然的想法是用经验风险估计期望风险。但是,由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化

当模型是条件概率估计,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计

样本容量很小时,经验风险最小化的效果容易产生过拟合,而结构风险最小化是为了防止过拟合而提出来的策略,结构风险最小化等价于正则化(regularization)。

结构风险在经验风险上加上表示模型复杂度的正则化项或罚项

算法

算法是指学习模型的具体计算方法,统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型,这时,统计学习问题归结为最优化问题。

统计学习方法之间的不同,主要来自其模型,策略,算法的不同。

生成模型与判别模型

判别模型是直接对数据建模出决策函数 Y = f ( X ) Y = f(X) Y=f(X) 或者条件概率分布 P ( Y ∣ X ) P(Y|X) P(YX),数据输出直接给出它的分类,而生成式模型是的对联合概率分布 P ( X , Y ) P(X,Y) P(X,Y) 进行建模,然后通过条件概率 P ( Y ∣ X ) = P ( X , Y ) P ( X ) \large P(Y|X) = \frac{P(X,Y)}{P(X)} P(YX)=P(X)P(X,Y) 来判断模型的分类,生成模型表示了给定输入 X X X 产生输出 Y Y Y 的生成关系

生成方法的特点:生成方法可以还原出联合概率分布 P ( X , Y ) P(X,Y) P(X,Y),而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快地收敛于真实模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法就不能用。

判别方法的特点:判别方法直接学习的是条件概率 P ( Y ∣ X ) P(Y|X) P(YX)或决策函数 f ( X ) f(X) f(X),直接面对预测,往往学习的准确率更高;由于直接学习 P ( Y ∣ X ) P(Y|X) P(YX) f ( X ) f(X) f(X) ,可以对数据进行各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

分类问题

分类是监督学习的一个核心问题。在监督学习中,当输出变量Y取有限个离散值时,预测问题便成为分类问题。

标注问题

标注(tagging)也是一个监督学习问题。可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测

回归问题

回归(regression)是监督学习的另一个重要问题。回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的学习等价于函数拟合:选择一条函数曲线使其很好地拟合已知数据且很好地预测未知数据

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值