【统计学习方法笔记】绪论

最新推荐文章于 2024-07-14 09:39:08 发布

Wwxiaoyi

最新推荐文章于 2024-07-14 09:39:08 发布

阅读量113

点赞数 1

分类专栏：统计学习方法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_43162058/article/details/94719804

版权

统计学习方法专栏收录该内容

2 篇文章 1 订阅

订阅专栏

文章目录

统计学习方法分类

监督学习（本书重点）

本质是学习一个由输入到输出的映射。通俗来讲就是，给定计算机一个输入，输出相应的值。我们要学习一个模型，将输入输出对应起来。

非监督学习

半监督学习

统计学习三要素

模型

在监督学习过程中，模型就是要学习的条件概率分布。模型重点关注问题的假设空间，模型的假设空间包括所有的条件概率分布函数。模型有两种形式，一种是条件概率分布+参数空间，另一种是决策函数+参数空间。

策略

策略即评价方法。策略有平均误差评价函数称为风险函数，单次误差评价函数称为代价函数或者损失函数。常见的损失函数有0-1损失函数、平方损失函数、绝对损失函数和对数损失函数。（下图摘自李航老师课件）
在这里插入图片描述

ps:当训练集比较小时，容易造成过拟合（过拟合就是训练时误差小，但测试时误差大，即日常说的“偶然性”）。当样本容量比较大时，采用经验风险最小化的策略，即尽可能地选择风险函数值小的模型；当样本容量较小时，选择结构风险最小化策略，避免过拟合。结构风险在经验风险的基础上，增加了正则化项（也称罚项）。正则化项是定义在假设空间上的泛函，模型越简单，正则化项复杂度越小；模型越复杂，正则化项的复杂度就越高。

算法

根据学习策略从假设空间中选择最优的模型。

交叉验证

除了训练集和测试集，还增加了验证集，顾名思义，验证模型的可靠性。常见的交叉验证方法有简单交叉验证、S折交叉验证和留一交叉验证。

泛化能力

指学习得出的模型对未知数据的预测能力，即所学习得到模型的期望风险。泛化误差越小，该方法就越有效。

生成模型和判别模型

生成模型：由数据学习得出P(X,Y），然后给出P(Y|X）。特点：学习收敛速度快，当样本容量增加时，能更快收敛于正确模型；当存在隐变量时该方法仍然适用。
判别模型：直接求 f(X)或者P(Y|X)。特点：直接面对预测，准确率比较高。由于直接学习需要的函数，所以往往可以进行各种抽象、定义特征并使用特征，可以简化学习问题。

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。