统计学习方法概论

1.统计学习

统计学习(statistical learning)是关于计算机基于数据构建概率统计模型并运用数据进行预测与分析的一门学科。统计学习又称为统计机器学习(statistical machine learning).
统计学习方法是基于数据构建统计模型从而对数据进行预测与分析。统计学习由监督学习、半监督学习、非监督学习和强化学习等组成。
实现统计学习方法的步骤如下:
(1)得到一个有限的训练数据集合;
(2)确定包含所有可能的模型假设空间,及学习模型的集合;
(3)确定模型的选择准则,及学习的策略;
(4)实现求解最优模型的算法,及学习的算法;
(5)通过学习方法得到最优模型;
(6)利用学习的最优模型对新数据进行预测与分析。

2.监督学习

监督学习(supervised learning)的任务是学习一个模型,使模型能够对任意给定的输入,对其相应的输出做出一个好的预测。
输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的:
(1)输入变量与输出变量均为连续变量的预测问题成为回归问题;
(2)输出变量为有限个离散变量的预测问题称为分类问题;
(3)输入变量与输出变量为变量序列的预测问题称为标注问题。
监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。由于在这个过程中需要训练数据集,而训练数据集往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程,由学习系统与预测系统完成,如下图所示:
这里写图片描述
首先给定一个训练数据集

T=(x1,y1),(x2,y2),...,(xN,yN)

其中 (xi,yi)i=1,2,...N ,称为样本活样本点。
监督学习中,假设训练数据与测试数据是依联合概率分布 P(X,Y) 独立同分布产生的。
在学习的过程中,学习系统利用给定的训练数据集,通过学习(或训练)得到一个模型,表示为条件概率分布 P^(Y|X) 或者决策函数 Y=f^(X) .条件概率分布 P^(Y|X) 或者决策函数 Y=f^(X) 描述输入与输出随机变量之间的映射关系。
在预测过程中,预测系统对于给定的测试样本集中的输入 xN+1 ,由模型 yN+1=argmaxyN+1P^(yN+1|yN+1) 或者 yN+1=f^(xN+1)

3.统计学习三要素

学习=模型+策略+算法

3.1模型

在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。
假设空间用 F 表示。假设空间可以定义为决策函数的集合

F={f|Y=f(X)}
这时 F 通常是由一个参数向量决定的函数族:
F={f|Y=fa(X),aRn}
参数向量a取之于 n 为欧式空间Rn,称为参数空间。
假设空间也可以定义为条件概率的集合

F={P|P(Y|X)}
.

3.2策略

有了模型的假设空间,统计学习接着需要考虑的是什么样的准则学习或选择最优的模型。首先引入损失函数与风险函数的概念。损失函数度量模型一次预测的好坏,风险函数度量平意义下模型预测的好坏。
损失函数是 f(X) Y 的非负实值函数,记为L(Y,f(X)).常用的损失函数有一下几种:
(1)0-1损失函数
这里写图片描述
(2)平方损失函数
这里写图片描述
(3)绝对损失函数
这里写图片描述
(4)对数损失函数或对数似然损失函数
这里写图片描述
损失函数值越小,模型就越好。由于模型的输入、输出是随机变量,遵循联合概率分布 P(X,Y) ,所以损失函数的期望是
这里写图片描述
这是理论上模型 f(X) 关于联合分布 P(X,Y) 平均意义下的损失,称为风险函数或者期望损失。
学习的目标就是选择期望风险最小的模型。但是由于联合分布 P(X,Y) 是未知的, Rexp(f) 不能直接计算。因此给定一个模型关于训练数据集的平均损失称为经验风险或经验损失,记为 Remp
这里写图片描述
期望风险是模型关于联合分布的期望损失,经验风险是模型关于训练样本集的平均损失。根据大数定理,当样本容量趋于无穷时,经验风险趋于期望风险。所以一个很自然的想法是用经验风险估计期望风险。但是由于现实中训练样本数目有限,甚至很小,所以用经验风险估计期望风险常常并不理想,所以要对经验风险进行一定的矫正。这就关系到监督学习的两个基本策略:经验风险最小化和结构风险最小化。
**经验风险最小化(ERM):**ERM认为经验风险最小的模型是最优模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题:
这里写图片描述
其中, F 为假设空间。
当样本容量足够大时,经验风险最小化能保证有很好的学习效果。极大似然估计就是经验风险最小化的一个例子。
但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生过拟合现象。

结构风险最小化(SRM):是为了防止过拟合而提出来的策略。结构风险最小化等价于正则化。结构风险在经验风险上加上表示模型复杂度的正则化项或罚项,定义如下:
这里写图片描述
模型f越复杂,复杂度 J(f) 越大;反之,模型 f 越简单,复杂度J(f)越小。也就是说,复杂度表示了对复杂模型的惩罚。贝叶斯估计中的最大后验概率估计就是结构风险中的一个例子。

3.3算法

算法是指学习模型的具体计算方法。统计学习基于训练数据集,根据学习策略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。这时,统计学习问题归结为最优化问题,统计学习的算法成为求解最优化问题的算法。

4模型评估与模型选择

4.1训练误差与测试误差

假设学习到的模型是 Y=f^(X) ,训练误差是模型关于训练数据集的平均损失:
这里写图片描述
测试误差是模型 Y=f^(X) 关于测试数据集的平均损失:
这里写图片描述
其中 N 是测试样本容量。
训练误差的大小,对判断给定的问题是不是一个容易学习的问题是有意义的,但本质上不重要。测试误差反映了学习方法对未知的测试数据集的预测能力,是学习中的重要概念。通常将学习方法对未知数据的预测能力称为泛化能力。

4.2过拟合与模型选择

当假设空间含有不同复杂度的模型时,就要面临模型选择的问题。我们希望选择或学习一个合适的模型。如果一味追求提高对训练数据的预测能力,所选模型的复杂度则往往会比真模型更高。这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预测得很差的现象。
下图描述了训练误差和测试误差与模型复杂度之间的关系。当模型的复杂度增大时,训练误差会逐渐减小并趋于0;而测试误差会先减小,达到最小值后又增大。当选择的模型复杂度过大时,过拟合现象就会产生。这样,在学习时就要防止过拟合,进行最优模型选择,即选择复杂度适当的模型,以达到使测试误差最小的学习目的。
这里写图片描述

5正则化与交叉验证

5.1正则化

正则化是是结构风险最小化策略的实现,是在经验风险上加一个正则化项或罚项。
正则化一般具有如下形式:
这里写图片描述
正则化项可以取不同的形式。例如,回归问题中,损失函数是平方损失,正则化项可以是参数向量的 L2 范数:
这里写图片描述
这里, ||w|| 表示参数向量 w L2范数。
正则化项也可以是参数向量的 L1 范数:
这里写图片描述
这里, ||w||1 表示参数向量 w L1范数。
第1项的经验风险较小的模型可能较复杂,这是第2项的模型复杂度会较大。正则化的作用是选择经验风险与模型复杂度同时较小的模型。

5.2交叉验证

如果给定的样本数据充足,进行模型选择的一个简单方法是随机的将数据集切割成三部分,分别为训练集、验证集和测试集。但是在许多实际应用中数据是不充足的。为了选择更好的模型,可以进行交叉验证方法。交叉验证的思想是重复地使用数据;把给定的数据进行切分,将切分的数据集组合为训练集和测试集,在此基础上反复地进行训练、测试以及模型选择。
(1)简单交叉验证
首先随机的将已给数据分为两部分,一部分用来训练,另一部分作为测试集。然后用训练集在各种条件下训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
(2)S折交叉验证
首先随机的将已给数据切分为S个互不相交的大小相同的子集;然后利用S-1个子集的数据训练模型,利用其余的进行测试模型;重复进行这个过程S次;最后选出平均测试误差最小模型。
(3)留一交叉验证
S折交叉验证的特殊情况:S=N.

6泛化能力

6.1泛化误差

学习方法的泛化能力是指由该方法学习到的模型对未知数据的预测能力。事实上,泛化误差就是所学习到的模型的期望误差。

6.2泛化误差上界

泛化误差上界通常具有以下性质:它是样本容量的函数,当样本容量增加时,泛化上界趋于0;它是假设空间容量的函数,假设空间容量越大,模型就越难学,泛化误差上界就越大。
(定理) 对二类分类问题,当假设空间是有限个函数的集合 F={f1,f2,...,fd} 时,对任意一个函数 fF ,至少一概率 1δ ,以下不等式成立:
这里写图片描述
其中,
这里写图片描述

7生成模型与判别模型

生成方法由数据学习联合概率分布 P(X,Y) ,然后求出条件概率分布 P(Y|X) 作为预测的模型,即生成模型:
这里写图片描述
这样的方法之所以称为生成方法,是因为模型表示了给定输入X产生输出Y的生成关系。典型的生成模型有:
朴素贝叶斯和隐马尔科夫模型。
判别方法由数据直接学习决策函数 f(X) 或者条件概率分布 P(Y|X) 作为预测模型,即判别模型。典型的判断模型包括:k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场等。
生成方法的特点:生成方法可以还原出联合概率分布,而判别方法则不能;生成方法的学习收敛速度更快,即当样本容量增加的时候,学到的模型可以更快的收敛于真是模型;当存在隐变量时,仍可以用生成方法学习,此时判别方法不能用。
判别方法的特点:判别方法直接学习的是条件概率或决策函数,直接面对预测,往往学习的准确率更高;由于直接学习 P(Y|X) 或者 f(X) ,可以对数据尽心各种程度上的抽象、定义特征并使用特征,因此可以简化学习问题。

8分类问题、标注问题和回归问题

分类是监督学习的一个核心问题。在监督学习中,当输出变量取有限离散值时,预测问题便成为分类问题。
对于二类分类问题常用的评价指标是准确率与召回率:
TP–将正类预测为正类数
FN–将正类预测为负类数
TN–将负类预测为负类数
FP–将负类预测为正类数
准确率定义为:

P=TPTP+FP

召回率定义为:
R=TPTP+FN

此外还有 F1 值,是准确率和召回率的调和均值,即
2F1=1P+1R

标注问题也是一个监督学习问题。输入时一个观测序列,输出是一个标注序列或者状态序列。
回归问题用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生变化。回归学习最常用的损失函数是平方损失函数,在此情况下,回归问题可以由著名的最小二乘法求解。

来源于《统计学习方法》–李航著

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值