第一章：统计学习方法概论

最新推荐文章于 2024-05-19 14:29:44 发布

扔出去的回旋镖

最新推荐文章于 2024-05-19 14:29:44 发布

阅读量252

点赞数

分类专栏：统计学习方法文章标签：统计学习

本文链接：https://blog.csdn.net/liubi32326/article/details/128585800

版权

3 篇文章 0 订阅

订阅专栏

文章探讨了统计学习的特点，包括监督学习、无监督学习和强化学习的定义与模型形式。重点介绍了监督学习的三要素——模型、假设空间和策略，以及训练误差、测试误差、过拟合、正则化和交叉验证的概念。此外，还讨论了泛化能力、生成模型与判别模型的区别，并列举了监督学习在分类、标注和回归问题中的应用。

摘要由CSDN通过智能技术生成

监督学习：从标注数据中学习预测模型，学习输入到输出映射的统计规律，这一映射一模型表示
- 根据输入输出变量类型不同给予预测问题不同的名称
  1. 输入输出均连续：回归问题
  2. 输出有限个离散：分类问题
  3. 输入与输出均为变量序列：标注问题
- 模型形式：条件概率分布 $P (Y ∣ X)$ 或决策分布 $Y = f (X)$
- 流程图
无监督学习：从无标注数据中学习预测模型的机器学习问题，学习数据中统计规律和潜在结构
- 模型形式：函数 $z = g (x)$ ，条件概率分布 $P (z ∣ x)$ 或条件概率分布 $P (x ∣ z)$
- 流程图
强化学习：智能系统在与环境的连续互动中学习最优行为策略的机器学习问题，学习最优的序贯决策
- 可以基于最优策略或最优价值得到最优模型
- 流程图

假设空间（Hypothesis Space）：所有可能的条件概率分布或决策函数，假设空间模型数量一般为无限个

度量模型好坏的几个概念：

损失函数： $L (Y, f (X))$ ，非负实值函数，也称为代价函数
- 常见损失函数：
风险函数： $R_{exp}(f)=E_{P}[L(Y,f(x))]=$ $\int_{X\times Y}^{}L(Y,f(X))P(x,y)dxdy$ ,度量平均意义下模型预测的好坏
经验风险： $R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))$ ,模型关于训练集的平均损失

根据大数定律，样本N趋于无穷时，经验风险趋于期望风险。但是由于现实样本数量通常是有限的，所以需要对经验风险进行一定的矫正，这就关系到监督学习的两个基本策略：经验风险最小化和结构风险最小化

过拟合就是参数过多，对已知数据预测很好，但对未知数据预测很差的现象

要选择训练误差和测试误差都比较小的参数个数

泛化能力定理证明（二分类问题）

关注