《统计学习方法》-李航第一章

最新推荐文章于 2023-09-22 14:27:00 发布

pxq2222

最新推荐文章于 2023-09-22 14:27:00 发布

阅读量154

点赞数

分类专栏：统计学习方法文章标签：统计学习方法监督学习

本文链接：https://blog.csdn.net/pxq2222/article/details/102516104

版权

统计学习方法专栏收录该内容

1 篇文章 0 订阅

订阅专栏

个人的简单理解，仅作参考！

1.1统计学习的三要素：

方法=模型+策略+算法

得到一个有限的训练数据集合
确定包含所有可能模型的假设空间（也就是所谓的学习模型集合）
确定模型的选择准则（也就是确定学习的策略，明确按照什么样的准则去选择模型）
实现求解最优模型的算法（学习的算法，也就是如何达到最优的准则）
通过学习方法选择最优的模型（此时就是我们所需的模型）
利用学习的最优模型对新数据分析和预测

1.1.1 模型

条件概率表示的模型：概率模型P(y|x)
决策函数表示的模型：非概率模型f(x)

1.1.2策略

损失函数：度量模型一次预测的好坏

01损失
平方损失函数
绝地值损失函数
对数损失函数（对数似然损失函数）

风险函数（期望损失/期望风险）：平均意义下模型预测好坏，求损失函数的期望（关于联合分布的期望损失）
经验风险（经验损失）：训练数据集的平均损失
根据大数定律，当N趋于吴无穷时，经验风险趋于期望风险，但是现实中经验风险估计期望风险并不理想，需要对经验风险进行矫正，所以涉及到两个基本策略：
经验风险最小化和结构风险最小化
经验风险最小化会产生过拟合现象；结构风险最小化等价于正则化，与模型复杂度有关，结构风险小的模型往往对训练数据以及未知的数据有较好预测。
最终，监督学习变为经验风险或结构风险函数最优化问题。

1.1.3算法

统计学习问题，变为了最优问题。需要考虑用什么样的计算方法求解最优模型、

1.2监督学习

输入空间：输入（出）的所有可能取值的集合，他们可以是不同的空间，但通常输出空间远小于输入空间
特征空间：每一个具体的输入都是一个实例，通常由特征向量表示。这是特征向量存在的空间称为特征空间,(模型实际上都是定义在特征空间的)
输入输出为连续变量的预测问题称为回归问题 ，离散变量称为分类为题，变量序列的预测问题称为标注问题
X和Y具有联合概率分布的假设是监督学习关于数据的基本假设

1.3模型评估与选择

训练误差
测试误差

1.4正则化和交叉验证

正则化：是结构化风险最小化策略的实现。选择经验风险与模型复杂度同时较小的模型符合奥拉姆剃刀法则
交叉验证：训练集，验证集，测试集。在学习到不同复杂度的模型中，选择验证集中有最小预测误差的模型。
简单交叉验证；S折交叉验证；留一交叉验证。

1.5泛化能力

泛化误差：对未知数预测的误差，就是学习到的模型的期望风险
泛化误差（概率）上界限：能够用来分析学习方法的泛化能力。并具有以下性质：
1.他是样本容量的函数，通常样本数量增加，泛化上街就会趋于0；
2.他是假设空间的函数，假设空间的同容量越大，模型就越难学，上界就越大

1.6生成模型和判别模型

监督学习方法分为：生成方法（生成模型）和判别方法（判别模型）
生成模型：由数据先学习到联合概率分布，并求出条件概率分布作为预测的模型。他给出了X产生Y的生成关系

典型生成模型有：朴素贝叶斯，隐马尔可夫模型。
特点：收敛速度快，存在隐变量任可以永生成学习，而判别学习不可。
判别模型：由数据直接学习决策函数或者是条件概率分布作为预测的模型。仅关心给定的x，应该预测什么样的Y
典型判别模型有：K近邻、感知机、决策树、logist回归。最大熵模型、支持向量机、提升方法和条件随机场。
特点：直接面对预测，学习准确率更高。可以对数据进行各种程度上的抽象、定义特征并使用特征、也可称为简化学习问题。