统计学习概论

什么是统计学习

统计学习就是:用于对数据进行预测与分析,特别是对未知新数据进行预测与分析。

从给定 的、有限的、用于学习的训练数据(training data)集合出发,假设数据是独立同分 布产生的;并且假设要学习的模型属于某个函数的集合,称为假设空间(hypothesis space);应用某个评价准则(evaluation criterion),从假设空间中选取一个最优的 模型,使它对已知训练数据及未知测试数据(test data)在给定的评价准则下有最 优的预测;最优模型的选取由算法实现

述监督学习中的统计学习三要素

1.模型(假设空间):

模型就 是所要学习的条件概率分布或决策函数.模型的假设空间(hypothesis space)包 含所有可能的条件概率分布或决策函数。简单说就是决策函数与概率模型。

2.策略:

有了模型的假设空间,统计学习接着需要考虑的是按照什么样的准则学习或 选择最优的模型.统计学习的目标在于从假设空间中选取最优模型。

这里可以用损失函数和风险函数。

 

 

当样本数据无限大的时候经验风险就会趋于期望风险,目的就是选取期望风险最小的模型

P(x,y)。 

由于样本数量有限,所以对经验风险进行一定的矫正。这里就引出了监督学习的两个策略:

经验风险最小化 :  经验风险最小的模型是最优的模型.根据这一策略,按照经验风险最小化求最优 模型就是求解最优化问题

 其中,F是假设空间. 当样本容量足够大时,经验风险最小化能保证有很好的学习效果.

但是,当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生“过拟合(over-fitting)”现象

过拟合是指学习时选择的模型所 包含的参数过多,以致于出现这一模型对已知数据预测得很好,但对未知数据预 测得很差的现象.可以说模型选择旨在避免过拟合并提高模型的预测能力.

 训练集,验证集,测试集通个这个现象我们发现拟合问题。

结构风险最小化:

结构风险最小化等价于正则化(regularization)

结构风险在经验风 险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term).在假 设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:

 

这样,监督学习问题就变成了经验风险或结构风险函数的最优化问题(1.11) 和(1.13).这时经验或结构风险函数是最优化的目标函数。

3.算法:

算法是指学习模型的具体计算方法.统计学习基于训练数据集,根据学习策 略,从假设空间中选择最优模型,最后需要考虑用什么样的计算方法求解最优模型。


 

正则化与交叉验证:
 

 p = 2就是L2范数。

交叉验证:
 

S 折交叉验证 : 应用最多的是 S 折交叉验证(S-fold cross validation),方法如下:首先随机地 将已给数据切分为 S 个互不相交的大小相同的子集;然后利用 S - 1个子集的数据 训练模型,利用余下的子集测试模型;将这一过程对可能的 S 种选择重复进行;最 后选出 S 次评测中平均测试误差最小的模型。

泛化误差:

学习方法的泛化能力(generalization ability)是指由该方法学习到的模型对 未知数据的预测能力,是学习方法本质上重要的性质.

 

 

 

 R^(f)是经验风险(就是训练误差),R(f)是期望风险(就是泛化误差),局限性是有限个模型。

生成模型与判别模型:

监督学习的任务就是学习一个模型,应用这一模型,对给定的输入预测相应 的输出.这个模型的一般形式为决策函数或者条件概率分布。

监督学习方法又可以分为生成方法和判别方法,所学到的模型分别称为生成模型和判别模型。

生成方法: 

判别方法: 

 分类问题:

 

 

 

 

 

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值