统计学习方法第一章统计学习方法概论读书笔记_hoeffding不等式统计学习方法-CSDN博客

本文链接：https://blog.csdn.net/qq_27008079/article/details/79631692

统计学习方法概论

1.1 统计学习

1.1.1 统计学习的特点

是关于计算机基于数据构建概率统计模型并运用模型对数据进行预测与分析的一门学科

1.1.2. 统计学习的对象

对象是数据，基本假设是同类数据具有一定的统计规律性

1.1.3. 统计学习的目的

用于对数据进行预测和分析，总的目标是考虑学习什么样的模型和如何学习模型

1.1.4. 统计学习的方法

基于数据构建统计模型从而对数据进行预测和分析
由监督学习.非监督学习.半监督学习和强化学习组成

1.1.5. 统计学习的研究

一般包括统计学习方法,统计学习理论,及统计学习应用

1.2 监督学习

学习一个模型，使模型能够对任意给定的输入，对其相应的输出做出好的预测

1.2.1 基本概念

输入空间和输出空间
每个具体的输入是一个实例，通常由特征向量表示
输入和输出看作是定义在输入（特征）空间和输出空间上随机变量的取值
输入输出用大写字母表示，输入输出变量用小写字母表示

eg:

x = (x (1), x (2), x (3), \dots, x (i), \dots, x (n)) T

$x=(x^{(1)}, x^{(2)}, x^{(3)}, \cdots, x^{(i)}, \cdots, x^{(n)})^T$

x i = (x (1) i, x (2) i, x (3) i, \dots, x (i) i, \dots, x (n) i) T

$x_i=(x^{(1)}_i, x^{(2)}_i, x^{(3)}_i, \cdots, x^{(i)}_i, \cdots, x^{(n)}_i)^T$

回归问题——输入输出均为连续变量
分类问题——输出为离散变量
标注问题——输入输出均为变量序列
联合概率分布
假设空间——输入空间到输出空间的映射的集合

1.2.2 问题的形式化

监督学习利用训练数据集训练一个模型，再用模型对测试样本集进行预测

在学习过程中，学习系统利用给定的训练数据集，通过学习(或训练)得到一个模型，表示为条件概率分布 $\hat{P}(Y|X)$ 或决策函数 $Y=\hat{f}(X)$ .

在预测过程中，预测系统对于给定的测试样本集中的输入 $x_{N+1}$ ,由模型 $y_{N+1}=argmax\hat{P}(y_{N+1}|x_{N+1})$ 或 $y_{N+1}=\hat{f}(x_{N+1})$ 给出相应的输出 $y_{N+1}$

1.3 统计学习三要素

1.3.1 模型

监督学习中，模型就是所要学习的条件概率分布或决策函数

假设空间为决策函数的集合： $F=\{f|Y=f_{\theta}(x),\theta\epsilon R^n\}$ ，非概率模型

假设空间为条件概率的集合： $F=\{P|P_{\theta}(Y|X), \theta\epsilon R^n\}$ ，概率模型

其中 $\theta$ 称之为参数空间

1.3.2 策略

损失函数——度量模型一次预测的好坏
风险函数——度量平均意义下模型的好坏

eg:
1. 0-1损失函数 $L(Y, f(X))=\begin{cases} 1,& {Y\ne f(X)}\\ 0,& {Y=f(X)} \end{cases}$
2. 平方损失函数 $L(Y, f(X))=(Y-f(X))^2$
3. 绝对损失函数 $L(Y, f(X))=|Y-f(X)|$
4. 对数损失函数或对数似然函数 $L(Y,P(Y|X))=-logP(Y|X)$
风险函数或期望损失—— $R_{exp}({f})=E_p[L(Y,{f}(X))]=\int_{x*y}L(y, {f}(x))P(x, y)dxdy$
经验风险或经验损失—— $R_{emp}(f)=\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i))$

根据大数定律，当样本容量N趋于无穷时，经验风险趋于期望风险
经验风险最小化： $min_{f\epsilon F}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i))$

当模型是条件概率分布，损失函数是对数损失函数时，经验风险最小化等价于极大似然估计，证明如下：

$min\frac{1}{n}\sum_{i=1}^{n}-log(P_\theta(y_i|x_i))\leftrightarrow max\frac{1}{n}\sum_{i=1}^{n}log(P_\theta(y_i|x_i))\leftrightarrow max\frac{1}{n}\prod_{i=1}^{n}P_\theta(y_i|x_i)$

结构风险最小化：, $min_{f\epsilon F}\frac{1}{n}\sum_{i=1}^{n}L(y_i,f(x_i))+\lambda J(f)$ ，其中 $J(f)$ 为模型的复杂度

当模型是条件概率分布，损失函数是对数损失函数时，模型复杂度由模型的先验概率表示时，结构风险最小化等价于最大后验概率估计，证明如下：

$\hat{\mu}_{MAP}=argmax_{\mu}P(\mu|X)=argmax_{\mu}\frac{P(X|\mu)P(\mu)}{P(X)}=argmax_{\mu}{P(X|\mu)P(\mu)}$

取log之后:

$\begin{align*}\hat{\mu}_{MAP}=argmax_{\mu}logP(\mu|X)&=argmax_{\mu}(log\prod_{i=1}^{n} P(x_i|\mu)+logP(\mu)) \\& =argmax_{\mu}(log\sum_{i=1}^{n}P(x_i|\mu)+logP(\mu))\\ & =argmin_{\mu}(-\sum_{i=1}^{n}logP(x_i|\mu)-logP(\mu))\end{align*}$

1.3.3 算法

最优化问题，找到全局最优解

1.4 模型评估与模型选择

1.4.1 训练误差与测试误差

训练误差：模型在训练数据集上的平均损失 $R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}L(y_i,\hat{f}(x_i))$
测试误差：模型在测试数据集上的平均损失 $e_{test}(\hat{f})=\frac{1}{N^{'}}\sum_{i=1}^{N^{'}}L(y_i,\hat{f}(x_i))$

1.4.2 过拟合与模型选择

过拟合是指学习时选择的模型所包含的参数过多，以至于这一模型对已知数据预测的很好，但对未知数据预测很差的现象

以M次多项式函数拟合举例

$L(w)=\frac{1}{2}\sum_{i=1}^{N}(\sum_{j=1}^{M}w_jx_i^j-y_i)^2$

$w_j=\frac{\sum_{i=1}^{N}x_{i}^{j}y_i}{\sum_{i=1}^{N}x_i^{j+1}}$

这里写图片描述
M=9时出现了过拟合，不是很好的预测

这里写图片描述

当模型的复杂度变大时，训练误差逐渐减小并趋向于0，而测试误差会先减小，达到最小值后又增大

1.5 正则化与交叉验证

1.5.1 正则化

正则化是结构风险最小化策略的实现，是在经验风险上加一个正则化项或罚项，正则化项一般是模型复杂度的单调递增函数。

$min\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_i))+\lambda J(f)$

回归问题中，损失函数是平方损失，正则化项可以是参数向量的 $L_2$ 范数， $L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w)-y_i)^2+\frac{\lambda}{2}||w||^2$
也可以是参数向量的 $L_1$ 范数， $L(w)=\frac{1}{N}\sum_{i=1}^{N}(f(x_i;w)-y_i)^2+\lambda||w||$

从贝叶斯估计的角度来看，正则化对应于模型的先验概率，可以假设复杂的模型有较小的先验概率，简单的模型有较大的先验概率。

1.5.2 交叉验证

将数据集分为三部分，训练集，验证集和测试集。

重复的使用数据，把给定的数据进行切分，在此基础上进行反复的训练测试和模型选择

简单交叉验证
S折交叉验证
留一交叉验证

1.6 泛化能力

1.6.1 泛化误差

如果学到的模型是 $\hat{f}$

$R_{exp}(\hat{f})=E_p[L(Y,\hat{f}(X))]=\int_{x*y}L(y, \hat{f}(x))P(x, y)dxdy$

引理1 令 $A_1,A_2,\cdots,A_k$ 为k个不同的事件（不一定相互独立），那么有： $P(A_1\cup A_2\cup \cdots \cup A_k) \leq P(A_1)+P(A_2)+\cdots+P(A_k)$
引理2 Hoeffding 不等式，如果 $X_1,X_2,\cdots,X_n$ 是一组独立同分布的参数为p的伯努利分布随机变量，定义这组随机变量均值为 $\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i$ ，对于任意的 $\epsilon>0$ ， $P\{|\overline{X}-E(\overline{X})|>\epsilon\}\leq 2e^{-2\epsilon^2n}$

(1)有限假设空间情况( $F=\{f_1,f_2,\cdots,f_M\}$ )

对任意假设 $f_k$

样本内误差： $E_{in}(f_k)=\frac{1}{n}\sum_{i=1}^{n}I(f_k(i)\neq f(i))$

样本外误差： $E_{out}(f_k)=P(f_k(i)\neq f(i))$

由Hoeffding不等式得知，对于任意的 $\epsilon>0$ ， $P(|E_{in}(f_k)-E_{out}(f_k)|>\epsilon)\leq 2e^{-2\epsilon^2n}$

$P(\exists f\epsilon F : |E_{in}(f)-E_{out}(f)|>\epsilon)=P(\cup |E_{in}(f)-E_{out}(f)|>\epsilon)\leq \sum_{i=1}^{M}P(E_{in}(f_i)-E_{out}(f_i)|>\epsilon)\leq2Me^{-2\epsilon^2n}$

等价为 $P(\forall f\epsilon F:|E_{in}(f)-E_{out}(f)|\leq\epsilon) >1-2Me^{-2\epsilon^2n}$

令 $2Me^{-2\epsilon^2n}$ 为 $\sigma$ ，则至少有 $1-\sigma$ 概率， $|E_{in}(f)-E_{out}(f)|\leq\sqrt{\frac{1}{2n}ln\frac{2M}{\sigma}}$

(2)无限假设空间情况

当M无限大时，(1)中求得的界限便没有了意义，如果可以将这无限大的假设空间分成有限的几类，按照样本数据划分方式进行分类，便可以将无限的问题转换成有限的问题。

以平面线性二分类举例

当样本数为1时，我们可以把假设分成2类。这里写图片描述

当样本数为2时，我们可以把假设分为4类。这里写图片描述

设 $F$ 为假设集，我们用 $F(X_1,X_2,\cdots,X_N)$ 表示分成的类数，并且有 $F(X_1,X_2,\cdots,X_N)\leq2^N$

可是随着样本的不同，即使样本数一致，分成的类数会有所不同

这里写图片描述

如上图样本数为3时，我们可以分为8类和6类

因此我们引入成长函数 $m_F(N)$

$m_F(N)=max_{x_1,x_2,\cdots,x_N\epsilon X}F(X_1,X_2,\cdots,X_N)$

$m_F(N)\leq2^N$

我们将成长函数替换到(1)中所求， $P(\exists f\epsilon F : |E_{in}(f)-E_{out}(f)|>\epsilon)\leq2m_F(N)e^{-2\epsilon^2n}\leq2\frac{2^n}{e^{2\epsilon^2n}}$

在样本数为4时，我们可以分为14类，如下图，出现了2种表示不出的情况，我们将4其称之为断点

这里写图片描述

只要假设集存在断点，成长函数满足一个更小的上界， $m_F(N)\leq\sum_{i=0}^{k-1}C_N^i$

VC Bound:

$P(\exists f\epsilon F : |E_{in}(f)-E_{out}(f)|>\epsilon)\leq2\cdot\frac{2m_F(2N)}{e^{2\cdot\frac{1}{16}N\epsilon^2}}\leq2\cdot\frac{2\cdot\sum_{i=0}^{k-1}C_{2N}^i}{e^{2\cdot\frac{1}{16}N\epsilon^2}}$

1.7 生成模型和判别模型

监督学习方法可分为生成方法和判别方法，所学到的模型分别称为生成模型和判别模型

生成方法由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)， $P(Y|X)=\frac{P(X,Y)}{P(X)}$ ，典型的生成模型有隐马尔可夫模型和朴素贝叶斯法，其优点在于可以还原联合概率分布，学习收敛速度更快
判别方法由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)，典型的判别模型有k近邻法，感知机，决策树，逻辑斯蒂回归，最大熵模型等，其优点在于直接学习模型，准确率更高，可以简化学习问题。

1.8 分类问题

这里写图片描述

$(x_1,y_1),(x_2,y_2),\cdots,(x_N,y_N)$ 是训练数据集，训练系统由训练数据训练一个分类器 $Y=f(X)$ 或 $P(Y|X)$ ，将新的输入实例 $x_{N+1}$ 分类为 $y_{N+1}$

分类准确率——对于给定的测试数据集，分类器正确分类的样本数和总样本数之比
精确率—— $P=\frac{TP}{TP+FP}$
召回率—— $R=\frac{TP}{TP+FN}$

TP——将正类预测为正类数

FN——将正类预测为负类数

FP——将负类预测为正类数

FN——将负类预测为负类数

$F_1$ 值为精确率和召回率的调和均值， $\frac{2}{F_1}=\frac{1}{P}+\frac{1}{R}$ ， $F_1=\frac{2TP}{2TP+FP+FN}$

1.9 标注问题

输入是一个观测序列，输出是一个标记序列或状态序列，标注问题的目标在于学习一个模型，使它能够对观测序列给出标记序列作为预测。

给定训练数据集 $T=\{(x_1,y_1),(x_2, y_2),\cdots,(x_N,y_N)\}$

$x_i=(x_i^{(1)},x_i^{(2)},\cdots,x_i^{(n)})^T ,i=1,2,\cdots,N$ 是输入观测序列

$y_i=(y_i^{(1)},y_i^{(2)},\cdots,y_i^{(n)})^T ,i=1,2,\cdots,N$ 是相应的输出标记序列

学习系统基于训练数据构建一个模型， $P(Y^{(1)},Y^{(2)},\cdots,Y^{(n)}|X^{(1)},X^{(2)},\cdots,X^{(n)})$

具体的，对一个观测序列 $x_{N+1}=(x_{N+1}^{(1)},x_{N+1}^{(2)},\cdots,x_{N+1}^{(n)})^T$

找到令条件概率 $P((y^{(1)}_{N+1},Y^{(2)}_{N+1},\cdots,Y^{(n)}_{N+1})|X^{(1)}_{N+1},X^{(2)}_{N+1},\cdots,X^{(n)}_{N+1})$ 最大的标记序列 $x_{N+1}=(y_{N+1}^{(1)},y_{N+1}^{(2)},\cdots,y_{N+1}^{(n)})^T$