统计学习三要素

最新推荐文章于 2025-03-07 16:30:53 发布

Gzzgz

最新推荐文章于 2025-03-07 16:30:53 发布

阅读量4.3k

点赞数 1

分类专栏： Statistics & Machine Learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mmmmmttttff/article/details/51106149

版权

Statistics & Machine Learning 专栏收录该内容

24 篇文章

订阅专栏

统计学习三要素

李航博士在《统计学习方法》一书中这样描述统计学习方法的构成：

方法=模型+策略+算法

本人更形象地借助产品经理的视角可以类比这样的：

方法=设想+指标+方案

下面就具体学习这三个要素（三要素是宏观上处理问题的一种框架）：

模型

统计学习首先要考虑的问题是学习什么样的模型。以监督学习为例，模型就是说要学习的条件概率分布或决策函数。模型的假设空间（hypothesis space）包含所有可能的条件概率分布或决策函数(其实就是他们的集合)。通常该函数的集合是由一个参数向量决定的函数簇。参数向量取值于N维欧式空间，就称为参数空间（parameter space）。

策略

这一步需要考虑的是按照什么样的准则学习或选择最优的模型(当然是从假设空间中选择了)。这里要介绍几个用到的概念：

损失函数（loss function）

损失函数度量模型一次预测的好坏，度量预测值f(X)和真实值Y之间的错误程度，是非负实值函数，可以记作：L(Y,f(X))。常用的比如：

平方损失函数： L(Y,f(X))=1/2 * (Y-f(X))^2

对数损失函数： L(Y,f(X)) = -logP(Y|X)

风险函数（risk function）

风险函数度量的是平均意义下的模型预测的好坏。损失函数值越小，模型就越好。输入输出（X,Y）是随机变量，遵循联合分布P(X,Y)，所以损失函数的期望是：

这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数或期望损失。学习的目标就是选择期望风险最小的模型。

给定一个训练数据集：

经验风险或经验损失记作：

经验风险是模型关于训练样本集的平均损失。根据大数定律，当样本容量N越来越大时，经验风险越趋近于期望风险。所以就可以用经验风险去估计期望风险，但是在样本不足的情况下，往往不够理想，需要对经验风险进行矫正，见下。

经验风险最小化（empirical risk minimization，ERM）

该策略认为经验风险最小的模型就是最优的模型，见下：

当样本容量足够大时，经验风险最小化能得到很好的学习效果。举例：极大似然估计。但是样本容量较小时会产生“过拟合”现象。

结构风险最小化（structural　risk　minimization，SRM）

结构风险最小化就是为了防止过拟合的策略，等价于正则化(regularization)，就是在经验风险最小化上加上表示模型复杂度的正则化项或惩罚项，如下：

其中J(f)是模型复杂度，模型f越复杂，J(f)就越大，反之f越简单，J(f)就越小。（举例：贝叶斯估计中的最大后验概率估计），这时，结构风险最小的模型就是最好的模型。

算法

算法就是根据学习策略，从假设空间中选择最优的模型的计算方法。往往这个时候就将问题转化为最优化问题。通常问题的解析解不存在，需要用数值计算的方法求解，如何保证找到全局最优解就是个重要问题。

总结

这里本人主要是摘取《统计学习方法》书中的有关内容，稍加整理而成。其实该部分内容看上去很“软”，不算是有什么干货，但是本人在第二遍阅读的时候，有种突然顿悟的感觉，宏观上明白了机器学习的流程和目的，本质上更认为这是一个大的指导框架，对今后学习有一定的帮助。

参考资料：

《统计学习方法》李航著

博客等级

码龄14年

39
原创

33
点赞

38
收藏

61
粉丝

关注

私信

热门文章

分类专栏

展开全部收起

最新评论

表情识别数据
晨晖将歇: 您好，请问您有AVEC2013的数据集吗，我现在在做抑郁识别方向，但是AVEC2013官网已经进不去了
Canny
qq_30946231: 你好，您说的关于双阈值的选择讨论在哪里呀0.0
windows下编译Matconvnet的方法(CPU和GPU)
m0_37918506: 博主，你好！我在用cifar-10测试时出现这个问题，一直未能解决，希望能得到你的帮助！ train: epoch 01: 1/500: 99.4 (99.4) Hz objective: 3.010 top1err: 0.880 top5err: 0.580 train: epoch 01: 2/500:Error using fliplr (line 18) X must be a 2-D matrix. Error in cnn_cifar>getSimpleNNBatch (line 79) if rand > 0.5, images=fliplr(images) ; end Error in cnn_cifar>@(x,y)getSimpleNNBatch(x,y) (line 68) fn = @(x,y) getSimpleNNBatch(x,y) ; Error in cnn_train>processEpoch (line 325) [im, labels] = params.getBatch(params.imdb, batch) ; Error in cnn_train (line 150) [net, state] = processEpoch(net, state, params, 'train') ; Error in cnn_cifar (line 57) [net, info] = trainfn(net, imdb, getBatch(opts), ... >>
windows下编译Matconvnet的方法(CPU和GPU)
fanxinory: cuda6.5以上的计算能力要求是3.0
Caffe for windows 训练cifar10数据集
: 我换了分类器解决了没用这个classification.cpp

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。