统计学习笔记

最新推荐文章于 2024-01-17 20:27:04 发布

阔洛喵

最新推荐文章于 2024-01-17 20:27:04 发布

阅读量229

点赞数

分类专栏：学习笔记

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42070039/article/details/93537475

版权

学习笔记专栏收录该内容

16 篇文章 0 订阅

订阅专栏

一、概论

1.1 统计学习

统计学习方法三要素：模型、策略、算法

即：模型的假设空间、模型选择的准则、模型学习的算法

1.2 监督学习

监督学习的基本假设：X和Y具有联合分布，即X和Y存在一定的统计规律。

输入变量与输出变量均为连续变量的预测问题称为回归问题；

输出变量为有限个离散变量的预测问题成为分类问题；

输入变量与输出变量均为变量序列的预测问题成为标注问题。

监督学习的目的：学习一个由输入到输出的映射。

1.3 统计学习三要素

模型：

条件概率分布（概率模型） or 决策函数（非概率模型）

策略：

损失函数（lost function）或代价函数（cost function）

用损失函数或代价函数来度量错误的程度。

风险函数（rist function）或期望损失（expected loss）

损失函数越小，模型越好，损失函数的期望为：

学习的目标是选择期望风险最小的模型。

但是联合分布P（X,Y）不可知，需要学习。

因此使用经验风险（empirical risk）或经验损失（emprical loss）衡量损失。

经验风险是模型关于训练样本集的平均损失，当样本容量N趋于无穷时，经验风险趋于期望风险。

但现实中训练样本数目有限，因此需要对经验风险进行矫正：经验风险最小化和结构风险最小化。

经验风险最小化（ERM）认为经验风险最小的模型是最优的模型。

当样本容量够大时，经验风险最小化能保证很好的学习效果，比如最大似然估计。

当模型是条件概率模型，损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计。

但是当样本容量很小时，经验风险最小化效果未必很好，会产生“过拟合”现象。

结构风险最小化（SRM）是为了防止过拟合提出的的策略，结构风险最小化等价于正则化（regularizer）。

J(f)为模型的复杂度，模型越复杂，J(f)越大；反之越小。

结构风险小需要经验风险与模型复杂度同时小。

比如贝叶斯估计中的最大后验概率估计（MAP）就是结构风险最小化的一个例子。

当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时，结构风险最小化就等价于最大后验概率估计。

所以求最优模型就是结构风险最小化的过程。这时，经验或结构风险函数就是最优化的目标函数。

算法：

算法是指学习模型的具体计算方法。

算法要解决的问题：保证找到全局最优解，并使求解过程高效。

1.4 模型评估与模型选择

训练误差与测试误差

1.5 模型选择方法：正则化与交叉验证

交叉验证将数据集分成三部分：训练集，验证集，测试集

1.6 泛化能力：

1.7 生成模型与判别模型

生成方法学习联合分布P（X,Y），然后求概率分布P（Y|X）作为预测的模型。

例如：朴素贝叶斯法、隐马尔科夫模型。

判别方法有数据直接学习决策函数f(x)或者条件概率分布P（Y|X）作为预测的模型。

例如：决策树、支持向量机、K邻近法、感知机、最大熵、条件随机场等。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。