统计学习方法概论
- 统计学习
统计学习是关于计算机基于数据构建统计模型并运用模型对数据进行预测与分析的一门学科。统计学习也称为统计机器学习方法。 - 统计学习的方法
监督学习,非监督学习,半监督学习,强化学习 等
监督学习
基本概念
1. 输入空间,特征空间,输出空间
2. 联合概率分布
监督学习假设输入和输出的随机变量X和Y遵循联合概率分 P(x,y) .统计学习假设数据存在一定的统计规律,X和Y具有联合概率分布的假设就是监督学习关于数据的基本假设。
3. 假设空间
由输入空间到输出空间的映射的集合构成了假设空间。
监督学习的模型可以是概率模型或非概率模型,有条件概率分布
P(y|x)
或决策函数
y=f(x)
。
4. 模型
从输入空间到输出空间构成的集合称为假设空间,从这样的集合中,我们可以学到很多模型,即假设空间中的模型(算法)是无穷的。
5. 策略
统计学习考虑按照什么样的准则学习或者选择最优的模型。统计学习的目的在于从假设空间中选取最优模型。
5.1. 损失函数
(1) 0-1 损失函数
L(Y,f(x))={1,0,Y≠f(x)Y=f(x)
(2) 平方损失函数
L(Y,f(x))=(Y−f(x))2
(3) 绝对损失函数
L(Y,f(x))=|Y−f(x))|
(4) 对数损失函数或对数似然损失函数
L(Y,P(Y|X))=−logP(Y|X)
损失函数的值越小,模型就越好,由于模型的输入,输出(X,Y)是随机变量,遵循联合分布 P(X,Y) ,所以损失函数的期望是:
Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
这是理论上模型
f(x)
关于联合分布
P(X,Y)
的平均意义下的损失,称为风险损失函数或期望函数。
但是由于联合分布未知,
Rexp
不能直接计算。实际上如果知道
P(X,Y)
,可以直接从联合分布求出条件概率分布
P(Y|X)
,也就不需要学习了,正因为不知道联合分布,所以才需要学习。
这样一来,一方面需要计算期望风险,找到风险最小的模型,另一方面联合分布又是未知的,所以监督学习就成为一个问题。
5.2. 风险函数。
给定一个训练数据集
模型 f(x) 关于训练集的平均损失称为经验损失(empirical risk),记做 Remp :
期望风险 Rexp 是模型关于联合分布的期望损失,经验风险 Remp 是模型关于训练样本集的平均损失。根据大数定理,当样本的数量趋于无穷时,经验风险趋于期望风险。
所以一个很自然的想法就是用检验风险估计期望风险,但是,由于实际训练样本数目有限,所以用经验风险估计期望风险并不是很理想,这就涉及到了监督学习中的两个基本策略: 经验风险最小化和结构风险最小化
5.3. 经验风险最小化和结构风险最小化
当样本量足够大的时候,经验风险能够保证很好的学习效果,在现实生活被广泛应用,比如极大似然估计就是经验风险最小化的一个例子。当模型是条件概率分布,损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。
但是当样本容量很小时,经验风险最小化的学习效果未必好,会产生过拟合(over-fitting)现象。
结构风险最小化(structural-risk minimization)是为了防止过拟合而提出来的策略。结果风险最小化等价于正则化(regularization),对应正则化项或者惩罚项。结构风险定义如下
J(f)
:
结构风险小的模型泛化能力较好。
下一讲:正则化的来龙去脉。