统计学习方法概论_remp(f) = 1n n∑i l(yi, f(xi))-CSDN博客

本文链接：https://blog.csdn.net/MeowingCat/article/details/84890534

1 统计学习

对象：数据（data），以变量或变量组表示。
目的：预测和分析。
方法：监督学习（supervised learning）、非监督学习（unsupervised learning）、半监督学习（semi-unsupervised learning）、强化学习（reinforcement learning）。
概念：训练数据（training data）、假设空间（hypothesis space）、评价准则（evaluation criterion）、测试数据（test data）。

2 监督学习

2.1 基本概念

输入空间（input space）、输出空间（output space）、实例（instance）、特征向量（feature space）。
联合概率分布：监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。
假设空间：输入空间到输出空间的映射的集合。

2.2 问题的形式化

训练数据集T={(x₁,y₁),(x₂,y₂),…,(x_N,y_N)}，其中(x_i,y_i),i=1,2,…,N，称为样本或样本点。

3 统计学习三要素

模型、策略、算法。

3.1 模型

条件概率分布或者决策函数。集合为假设空间。

3.2 策略

从假设空间中选取最优模型。

损失函数和风险函数

损失函数（loss function）或代价函数（cost function）度量预测值f(X)和真实值Y的偏差程度。
1. 0-1损失函数
  $\begin{cases} 1 & Y \ne f(X)\\ 0 & Y = f(X) \end{cases}$
2. 平方损失函数
  $L(Y,f(X))=(Y-f(X))^2$
3. 绝对损失函数
  $L (Y, f (X)) = ∣ Y - f (X) ∣$
4. 对数损失函数或对数似然损失函数
  $L (Y, f (X)) = - l o g P (Y ∣ X)$
损失函数的期望
$R_{exp}=E_p[L(Y,f(X))]=\int_{XY}L(y,f(x))P(x,y)dxdy$
这是理论上模型f(X)关于联合分布P(X,Y)的平均意义下的损失，称为风险函数。

模型f(X)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)。
$R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i,f(x_{i}))$
经验风险最小化与结构风险最小化
1. 经验风险最小化（empirical risk minimization，ERM）：经验风险最小的模型是最优的模型。
  - 适用条件：样本容量足够大。（样本容量小会产生过拟合）
  - 极大似然估计。模型是条件概率分布，损失函数是对数损失函数。
2. 结构风险最小化（structural risk minimization，SRM）：等价于正则化（regularization）。
  - 假设空间、损失函数、训练数据集确定的情况下，结构风险
    $R_{srm}=\frac{1}{N}\sum_{i=1}^{N}L(y_{i},f(x_{i})) + \lambda J(f)$
    J(f)为模型的复杂度。
  - 贝叶斯估计中的最大后验概率估计（maximum posterior probability estimation，MAP）。条件概率分布、对数损失函数、模型复杂度由模型的先验概率表示。

3.3 算法

4 模型评估与模型选择

4.1 训练误差与测试误差

训练误差（training error）：基于损失函数。判断给定的问题是不是一个容易学习的问题。

测试误差（test error）：学习方法对未知的测试数据集的预测能力。泛化能力（generalization ability）。

4.2 过拟合与模型选择

过拟合（over-fitting）：学习时选择的模型所包含的参数过多，以至于出现这一模型对已知数据预测地很好，但对未知数据预测得很差的现象。

5 正则化与交叉验证

5.1 正则化

正则化（regularization）：结构风险最小化。一般是模型复杂度的单调递增函数。

5.2 交叉验证（cross validation）

简单交叉验证

随机将已给数据分成两部分，一部分作为训练集，另一部分作为测试集。
S折交叉验证（S-fold cross validation）

随机将已给数据切分为S个互不相交的大小相同的子集；利用S-1个子集的数据训练模型，利用余下的子集测试模型；对可能的S种选择重复进行。
留一交叉验证（leave-one-out cross validation）

S=N。

6 泛化能力

6.1 泛化误差（generalization ability）

对未知数据预测的误差。

6.2 泛化误差上界

通过比较两种学习方法的泛化误差上界的大小来比较它们的优劣。

样本容量的函数：样本容量增加时，泛化上界趋于0。
假设空间容量的函数：假设空间容量越大，泛化误差上界就越大。

7 生成模型与判别模型

**生成方法（generative approach）**由数据学习联合概率分布P(X,Y)，然后求出条件概率分布P(Y|X)作为预测的模型，即生成模型（generative model）：

$P(Y|X)=\frac{P(X,Y)}{P(X)}$
生成模型表示给定输入X产生输出Y的生成关系。例：朴素贝叶斯法、隐马尔可夫模型。

**判别方法（discriminative approach）**由数据直接学习决策函数f(X)或者条件概率分布P(Y|X)作为预测的模型。关心对给定的输入X，应该预测什么样的输出Y。例：k近邻法、感知机、决策树、逻辑斯蒂回归模型、最大熵模型、支持向量机、提升方法和条件随机场。

8 分类问题

8.1 概念

分类器（classifier）、预测（prediction）、分类（classification）、类（class）。

分类准确率（accuracy）：对于给定的测试数据集，分类器正确分类的样本数与总样本数之比。

8.2 评价指标

精确率（precision）、召回率（recall）。以关注的类为正类，其他类为负类。

TP：正类预测为正类数。
TN：正类预测为负类数。
FP：负类预测为正类数。
FN：负类预测为负类数。

精确率： $Precision=\frac{TP}{TP+FP}$

召回率： $Recall=\frac{TP}{TP+FN}$

9 标注（tagging）问题

输入：观测序列；输出：标记序列或状态序列。

10 回归问题

预测输入变量和输出变量之间的关系。

11 补充

极大似然估计

通过若干次试验，观察其结果，利用试验结果得到某个参数值能够使样本出现的概率为最大。

对于样本集 $D={x_1,x_2,..,x_N}$ ，似然函数（likelihood function）为 $L(\theta)=P(D|\theta)=\prod_{i=1}^{N}P(x_i|\theta)$ 。

使似然函数取最大值的 $\theta$ 值即为极大似然估计量。
伯努利

0-1分布