统计学习笔记

一、概论

1.1 统计学习

统计学习方法三要素:模型、策略、算法

即:模型的假设空间、模型选择的准则、模型学习的算法

1.2 监督学习

监督学习的基本假设:X和Y具有联合分布,即X和Y存在一定的统计规律。

输入变量与输出变量均为连续变量的预测问题称为回归问题

输出变量为有限个离散变量的预测问题成为分类问题

输入变量与输出变量均为变量序列的预测问题成为标注问题

监督学习的目的:学习一个由输入到输出的映射。

1.3 统计学习三要素

模型:

条件概率分布(概率模型) or 决策函数(非概率模型)

策略:

损失函数(lost function)或代价函数(cost function)

用损失函数或代价函数来度量错误的程度。

风险函数(rist function)或期望损失(expected loss)

损失函数越小,模型越好,损失函数的期望为:

学习的目标是选择期望风险最小的模型。

但是联合分布P(X,Y)不可知,需要学习。

因此使用经验风险(empirical risk)或经验损失(emprical loss)衡量损失。

经验风险是模型关于训练样本集的平均损失,当样本容量N趋于无穷时,经验风险趋于期望风险。

但现实中训练样本数目有限,因此需要对经验风险进行矫正:经验风险最小化和结构风险最小化。

经验风险最小化(ERM)认为经验风险最小的模型是最优的模型。

当样本容量够大时,经验风险最小化能保证很好的学习效果,比如最大似然估计。

当模型是条件概率模型,损失函数是对数损失函数时,经验风险最小化就等价于极大似然估计。

但是当样本容量很小时,经验风险最小化效果未必很好,会产生“过拟合”现象。

结构风险最小化(SRM)是为了防止过拟合提出的的策略,结构风险最小化等价于正则化(regularizer)。

J(f)为模型的复杂度,模型越复杂,J(f)越大;反之越小。

结构风险小需要经验风险与模型复杂度同时小。

比如贝叶斯估计中的最大后验概率估计(MAP)就是结构风险最小化的一个例子。

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时,结构风险最小化就等价于最大后验概率估计。

所以求最优模型就是结构风险最小化的过程。这时,经验或结构风险函数就是最优化的目标函数。

算法:

算法是指学习模型的具体计算方法。

算法要解决的问题:保证找到全局最优解,并使求解过程高效。

1.4 模型评估与模型选择

训练误差与测试误差

1.5 模型选择方法:正则化与交叉验证

交叉验证将数据集分成三部分:训练集,验证集,测试集

1.6 泛化能力:

1.7 生成模型与判别模型

生成方法学习联合分布P(X,Y),然后求概率分布P(Y|X)作为预测的模型。

例如:朴素贝叶斯法、隐马尔科夫模型。

判别方法有数据直接学习决策函数f(x)或者条件概率分布P(Y|X)作为预测的模型。

例如:决策树、支持向量机、K邻近法、感知机、最大熵、条件随机场等。

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值