统计学习方法概论

统计学习的也称为统计机器学习。
统计学习的对象是数据。数据包括存在于计算机及网络上的各种数字、文字、图像、音频数据及它们的组合。
统计学习由监督学习、非监督学习、半监督学习和强化学习等组成。
统计学习方法包括模型的假设空间、模型选择的准则以及模型学习的算法。简称为模型、策略和算法。

监督学习的基本概念

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间和输出空间。
每一个具体的输入是一个实例,通常由特征向量表示。所有的特征向量存在的空间称为特征空间。
输入变量与输出变量均为连续变量的预测问题称为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题称为标注问题。
监督学习的模型可以是概率模型或非概率模型。
监督学习分为学习和预测两个过程,由学习系统与预测系统完成。
在这里插入图片描述

一、模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
模型的假设空间包含所有的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数构成的函数集合。
统计学习的目标在于从假设空间中选取最优模型。

二、策略

统计学习常用的损失函数有以下几种:

  1. 0-1损失函数
    在这里插入图片描述
  2. 平方损失函数
    在这里插入图片描述
  3. 绝对损失函数
    在这里插入图片描述
  4. 对数损失函数或对数似然损失函数
    在这里插入图片描述
    损失函数值越小,模型就越好。
    由于模型的输入、输出(X,Y)是随机变量,遵循联合分布P(X,Y),所以损失函数的期望是:
    在这里插入图片描述
    这是理论上模型f(x)关于联合分布P(X,Y)的平均意义下的损失,称为风险函数或期望损失。
    经验风险函数式:
    在这里插入图片描述
    经验风险最小化的策略认为,经验风险最小的模型是最优的模型。极大似然估计就是经验风险最小化的一个例子。
    在假设空间、损失函数以及训练数据集确定的情况下,就可以用经验风险最小化。这个适合样本容量很大的情况。如果样本容量很小,使用经验风险最小化学习就会产生过拟合的现象。
    结构风险最小化是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。
    结构风险的定义是:
    在这里插入图片描述
    其中J(f)为模型的复杂度,模型f越复杂,复杂度就越大。结构风险小需要经验风险与模型复杂度同时小。贝叶斯估计中的最大后验概率估计就是结构风险最小化的一个例子。

三、过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测的很好,但对未知数据预测得很差的现象。
在多项式函数拟合中,随着多项式次数(模型复杂度)的增加,训练误差会减小,直至趋向于0,但是测试误差却不如此,它会随着多项式次数(模型复杂度)的增加先减小而后增大。
训练误差和测试误差与模型的复杂度之间的关系:
在这里插入图片描述

四、正则化与交叉验证

模型选择的典型方法是正则化。
正则化是结构风险最小化策略的实现,是在经验风险上加上一个正则化项或罚项
在这里插入图片描述
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的L2范数:
在这里插入图片描述
正则化也可以是参数向量的L1范数:
在这里插入图片描述
另一种常用的模型选择方法是交叉验证。
训练集用来训练模型,验证集用于模型选择,测试集用于最终对学习方法的评估。
交叉验证的基本思想是重复使用数据,把给定的数据进行切分,将切分的数据集组合为训练集与测试集,再次基础上反复进行训练、测试以及模型选择。
交叉验证又有三种方法:
5. 简单交叉验证:首先随机地将已给数据分为两部分,一部分作为训练集,另一部分作为测试集,然后用训练集在各种条件下训练模型,从而得到不同的模型,在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
6. S折交叉验证:首先随机地将已给数据切分为S个互不相交的大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型,将这一过程对可能的S种选择重复进行,最后选出S次评测中平均测试误差最小的模型。
7. 留一交叉验证:S折交叉验证的特殊情形是S=N,往往在数据缺乏的情况下使用。

五、泛化能力

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。一般都是用测试误差来评价学习方法的泛化能力。
泛化误差的定义:
在这里插入图片描述
学习方法的泛化能力分析往往是由泛化误差上界确定的。泛化误差上界通常具有的性质为:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
定理:对于二类分类问题,当假设空间是有限个函数的集合F={f1,f2,…,fd}时,对任意一个函数f∈F,至少一概率1-δ,以下不等式成立:
在这里插入图片描述
其中:
在这里插入图片描述

六、生成模型与判别模型

监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。
生成方法由数据学习联合概率分布P(X,Y),然后求出条件概率分布P(Y|X)作为预测的模型,即生成模型:
在这里插入图片描述
这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:朴素贝叶斯和隐马尔可夫模型。
判别方法由数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型,即判别模型。
判别模型是给定的输入X,应该预测什么的输入Y。典型的判别模型包括:K近邻、感知机、决策树、Logistic回归模型、最大熵模型、支持向量机模型、提升方法和条件随机场等。

生成方法判别方法
可以还原出联合概率分布P(X,Y)直接学习条件概率P(Y
学习收敛速度快学习准确率高
存在隐变量时可以使用可以对数据进行各种程度上的抽象、定义特征并使用特征,可以简化学习问题

七、分类问题

分类问题图形描述:
在这里插入图片描述
评价分类器性能指标一般是分类准确率,其定义是:对于给定的测试数据集,分类器正确分类的样本与总样本数之比,也就是损失函数是0-1损失时测试数据集上的准确率。
对于二分类问题常用的评价指标是精确率与召回率。
分类器在测试数据集上的预测或正确或不正确,通常有以下四种情况:

  1. TP——将正类预测为正类数
  2. FN——将正类预测为负类数
  3. FP——将负类预测为正类数
  4. TN——将负类预测为负类数
    精确率定义为:
    在这里插入图片描述
    召回率定义为:
    在这里插入图片描述
    F1值是精确率和召回率的调和均值,即
    在这里插入图片描述
    精确率和召回率都高时,F1值也会高。
    分类问题可以用到的统计学习方法有:k近邻法,感知机、朴素贝叶斯法、决策树、决策列表、Logistic回归模型、支持向量机、提升方法、贝叶斯网络、神经网络、winnow等。

八、标注问题

标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。
标注问题的图形表示:
在这里插入图片描述
评价标注模型的评价指标与评价分类模型的指标一样。
标注重用的统计学方法有:隐马尔可夫模型、条件随机场

九、回归问题

回归用于预测输入变量(自变量)和输出变量(因变量)之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归模型正是表示从输入变量到输出变量之间映射的函数。回归问题的图形描述为:
在这里插入图片描述
当回归学习的损失函数是平方损失函数的时候,回归问题可以由著名的最小二乘法求解。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值