一、统计学习方法——（第一章）概论梳理

最新推荐文章于 2022-04-03 11:32:41 发布

我学数学我骄傲

最新推荐文章于 2022-04-03 11:32:41 发布

阅读量1k

点赞数

分类专栏：算法笔记（蓝皮书，西瓜书，花书，CV）文章标签：机器学习深度学习算法推理

本文链接：https://blog.csdn.net/weixin_37799689/article/details/102811794

版权

算法笔记（蓝皮书，西瓜书，花书，CV）专栏收录该内容

28 篇文章 13 订阅

订阅专栏

前言：这是我第二次看蓝皮书，这一次看书的重点不在只局限于模型的使用，而更专注于模型的推导。对于一些不是很重要或者是常识性的的东西，本文将以思维导图的形式给出。另外，在学习过程中花书与此书是相辅相成的，一些已经证明过的会直接引用花书的推导（有链接的）。

一、知识梳理

首先对本章的所讲内容进行梳理，思维导图中并非所有的知识点都会讲解，自己能看懂的和不重要的就不写了。本文的知识梳理与书中章节顺序不同，主要是按自己的理解来，不喜勿喷。

二、实现统计学习方法的步骤

得到一个有限的训练数据集合
确定包含所以可能的模型的假设空间，即学习模型的集合（不是单个模型，单个具体模型是解）
确定模型选择的准则—策略
实现求解最优模型的算法—算法
通过学习方法选择最优模型
利用学习的最优模型对新数据进行预测或分析

三、有监督学习的基本形式（有监督有标签指导、无监督无标签指导）

注：图中的f与p有上标代表具体的决策与条件函数并不是模型的假设空间，学习系统其实更接近书中的模型假设空间的意思。

四、有监督算法分类

1）按功能

	输入变量	输出变量
分类问题	离散或连续	离散
标注问题	观测序列	标记序列或状态序列
回归问题	连续	连续

2）按思想

生成方法：

能还原联合概率分布、学习收敛速度快（当样本容量增加时，学到的模型可以更快地收敛于真实模型）、当存在隐变量时，仍可以用生成学习方法（判别方法不能用）。典型的生成模型有朴素贝叶斯法和隐马尔科夫模型。

判别方法：

直接学习决策函数f(X)或者条件概率分布P(Y|X)，直接面对预测，学习的准确率更高，可以对数据进行各种程度上的抽象、定义特征并使用特征，可以简化学习问题。典型的判别模型有：k近邻法，感知机，决策树，逻辑斯蒂回归模型，最大熵模型，支持向量机，提升方法和条件随机场等。

五、模型策略（其他两个要素好理解，不说了）

期望风险函数：它是理论上模型关于联合分布P(X,Y)的平均意义下的损失，称为风险函数。但是这个函数有个问题—就是你没有先验求不了。

经验风险函数：是关于训练样本集的平均损失，可求。

补充：看下使可以发现经验风险就是使用频数去近似误差出现的概率，类似均值等于期望。

六、模型评估与模型选择

1、模型评估

当给定损失函数时，基于损失函数的学习方法评估标准：模型的训练误差、模型的预测误差。公式蓝皮P10-1.14~1.15。当损失函数变为0-1函数时，测试误差变为误差率，并由此得知模型在测试集上的准确率。训练误差主要衡量问题是不是一个容易学习的问题（意义不大），测试误差反映学习方法对未知数据的预测能力。

2、模型选择（根据评估标准去选择模型呢？）

原因：模型选择时，不仅应该考虑对已知数据的预测能力，也应该考虑对未知数据的预测能力，因此无法单一的使用训练误差与测试误差来选择模型（评估标准只能确定当前模型的上界，不能确定好坏）。随着模型复杂度的增加，训练误差会减小，直至趋向于0，但是测试误差会先减小后增大。应选择复杂度适当的模型，以达到使测试误差最小。

根据评估标准，模型可分为三类：理想模型、模型过拟合、模型欠拟合

理想模型：

参数个数越多，模型的复杂程度越高。假设存在一个“真”模型，我们所选择的模型应该与真模型有相同个数的参数，所选择模型的向量与真模型的参数向量应相近。

过拟合模型：

如果一味追求对数据的预测能力，所选模型复杂度往往会比真模型高，这种现象称为过拟合。过拟合是指学习时选择的模型所包含的参数过多，以至于这一模型对已知数据预测的很好，对未知数据预测的很差的现象。

欠拟合模型：与过拟合模型相反

3、选择方法（如何避免过拟合）

补充：针对欠拟合只有增加模型的复杂程度就可以解决所有不是主要问题

1）正则化

正则化是结构风险最小化策略的实现。正则化一般有如下形式：常用的有L1和L2，具体区别见：

正则化的作用是同时选择经验风险与模型复杂度同时较小的模型。
补充：奥卡姆剃刀原理：在所有可能选择的模型中，能够很好地解释已知数据并且此模型很简单，这样的模型是最好的模型。从贝叶斯估计角度看，正则化项对应于模型的先验概率。可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

2）交叉验证：

当数据充足时，可以将数据集切分为3部分，训练集（用于训练模型）、验证集（用于选择模型）、测试集（用于最终对学习方法的评估）。我们应选择对验证集有最小预测误差的模型。但是在实际中，数据是不充足的，所以用到交叉验证方法，其思想是：重复地使用数据；把给定的数据进行切分，将切分的数据集组合为训练集与测试集，在此基础上反复地进行训练、测试及模型选择。

简单交叉验证：首先随机地将已给数据分为两部分（训练集和测试集）。例如70%是训练集，30%为测试集。然后用训练集在各种条件下（例如，不同的参数个数）训练模型，从而得到不同模型。最后在测试集上评价各个模型的误差，选测试误差最小的那个模型。（不可混抽）

S折交叉验证：此方法应用最多。将数据集分成互不相交大小相同的S份，其中S-1个数据集的数据用于训练模型，剩下的一个数据集用于测试模型。将这一过程对可能的S种选择重复进行，最后选出S次评测中平均测试误差最小的模型。

留一交叉验证：这种情形是S=N，通常在数据缺乏情况下用。其中N是给定数据集的容量。

参考链接：https://blog.csdn.net/yj_445324989/article/details/88086522

七、泛化误差上界证明

1、泛化误差与泛化误差上界

泛化误差：泛化误差是所学习到的模型对未知数据的期望风险，未知数据我们不知道也算不了，但我们知道训练数据的经验风险。因此泛化误差可以使用已知数据的经验风险（也是一种误差）去逼近。

泛化误差上界：泛化误差上界则是已知数据经验风险+经验风险与期望风险的的偏差。见书P16-1.25

2、泛化误差上界（定理1.1）证明

证明思路：先证明假设空间的上界，再通过 $f_{N}\epsilon F$ ，将模型的泛化上界限制在假设空间的泛化化上界中。注：证明中的任意 $f\epsilon F$ ，只是对假设空间部分的泛化上界的描述，每个函数的 $\varepsilon_{i}$ 不同。假设空间的上界是任意f的上界的上界。

证明：

补充：

推论：

1）泛化上界是样本容量的函数，当样本容量增加时，上界趋于0。

2）泛化上界还是假设空间容量的函数，空间容量越大，参数越多，模型越复杂，越难学习。

3）训练误差（经验风险）小，泛化误差（期望风险）也会小。

（1）极大似然估计

第一步：似然函数：

补充：题中给出的分布是概率密度函数并不是概率，但在计算时我们直接使用概率密度f(xi)代替概率p(xi)，主要是二者具有近似关系。

第二步：对数似然函数：

第三步：利用似然函数梯度求解参数

同理

（2）贝叶斯估计

第一步：代入贝叶斯公式

第二步：模型目标为（注：分母为固定值因此不影响求极值；因为 $x_{i}$ 相互独立，所以分子可以写成连乘积的形式。

上述为最大后验概率，因为它根本就没求分母所以不是贝叶斯估计（注：不影响求极值不是不求）。正确的如下：

注：之所以x写成连乘积，是因为每一个样本x都被当成一个变量；均值的分布只有一个是因为参数只是一个变量，且只有一个分布。

第三步：在此处我取了对数（理论上是不用取的）

第四步：代入各自的分布

第五步：求解（与极大似然的结果近似，不写具体步骤啦）

我学数学我骄傲

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
一、统计学习方法——（第一章）概论梳理

前言：这是我第二次看蓝皮书，这一次看书的重点不在只局限于模型的使用，而更专注于模型的推导。对于一些不是很重要或者是常识性的的东西，本文将以思维导图的形式给出。另外，在学习过程中花书与此书是相辅相成的，一些已经证明过的会直接引用花书的推导（有链接的）。一、知识梳理首先对本章的所讲内容进行梳理，思维导图中并非所有的知识点都会讲解，自己能看懂的和不重要的就不写了。本文的知识梳理与书中...
复制链接

扫一扫