李航《统计学习方法》第一章学习笔记

努力学习的小王同学！

已于 2022-04-13 22:19:33 修改

阅读量340

点赞数 2

文章标签：机器学习

于 2022-04-13 22:02:36 首次发布

本文链接：https://blog.csdn.net/m0_61165991/article/details/124159288

版权

文章目录

1.1 关于统计学习

定义

统计学习是从数据出发，提取数据的特征，抽象出数据的模型，最后又回到对数据的分析和预测中去。
分类

统计学习包括监督学习、非监督学习、半监督学习、强化学习等，监督学习是本书重点。
三要素

统计学习的方法大致可以表述为：从现有的数据出发，在模型的假设空间（模型的集合）上运用某个评价准则，从假设空间中选取一个最优的模型，并且设计选取规则算法。简言之，三要素就是：模型、策略、算法。

1.2 监督学习

监督学习是指我们的数据带有标签的学习过程，也就是监督学习的所用的数据其实是已经有了我们要预测的结果 $Y$ 的(也就是标签)，我们事先已经知道给定的输入它的输出是什么。

例如：我们的数据资料为求职者的一些基本信息和他最终是否被录用，我们的任务是建立一个模型来预测一个求职者是否会被公司录用，这样的过程就是监督学习。而非监督学习的已知条件只有求职者的信息，没有录用结果，我们的任务是建立模型通过不断学习来找出公司的录用标准。（这里是根据自己的理解想的例子，不知道是否合理）

1.2.1 基本概念

输入空间、特征空间、输出空间

输入和输出的所有可能取值的集合就是输入空间和输出空间。

每一个具体的输入表示一个实例，通常由特征向量表示，这时，所有特征向量存在的空间成为特征空间。（个人理解：输入空间是样本向量 $x_1,x_2..$ ，而特征空间是对于每一个 $x_i$ ， $x_i = (x_i^{(1)},x_i^{(2)}...)$ ，所有的 $x_i$ 的每一个分量构成的空间叫特征空间）
联合概率分布

监督学习假定输入与输出的随机变量 X 和 Y 遵循联合分布 $P (X, Y)$ 。学习的过程就是寻找这一联合分布的过程。
假设空间

存在着一个模型的集合，这个集合里的每个模型都表示了从输入空间到输出空间的映射，这个集合就是假设空间。

1.3 统计学习的三要素

方法 = 模型 + 策略 + 算法

1.3.1 模型

$\mathcal{F}$ 表示假设空间，它是我们所要学习的条件概率或者决策函数的集合。

如果我们要学习的模型是由决策函数表示的非概率模型，那么假设空间可以表示为： $\mathcal{F} = \{f | Y = f_\theta(X),\theta \in \mathbb{R}^n\}$ ， $\theta$ 是取值于 n 维欧氏空间的一个未知参数向量。

如果我们要学习的模型是由条件概率表示的概率模型，那么假设空间可以表示为： $\mathcal{F} = \{P | P_\theta(Y｜X),\theta \in \mathbb{R}^n\}$ ， $\theta$ 是取值于 n 维欧氏空间的一个未知参数向量。

1.3.2 策略

策略就是我们在假设空间选择最优模型的标准或者准则。

损失函数和风险函数

损失函数是度量模型一次预测的好坏，风险函数是度量平均意义下模型预测的好坏。

监督学习问题是在假设空间 $\mathcal{F}$ 中选取一个模型 $f$ 作为决策函数并且进行预测，预测值和真实值之间的错误程度用一个损失函数（ $L (Y, f (X))$ ）来度量，常见的损失函数有以下几种：
- 0-1损失
  $\left\{ \begin{matrix} 1,\quad Y \neq f(X)\\ 0, \quad Y = f(X) \end{matrix}\right.$
  也就是说如果预测结果和真是值相等（预测正确），损失为0；如果不等（预测错误），损失为1。
- 平方损失
  $L(Y,f(X)) = (Y-f(X))^2$
- 绝对损失
  $L (Y, f (X)) = ∣ Y - f (X) ∣$
- 对数损失
  $L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$
损失函数的值越小，表示模型的预测效果越好。

我们假定输入和输出 $(X ， Y)$ 存在联合分布 $P (X, Y)$ ，那么损失函数的期望也称作风险函数可以表示为：
$R_{exp}(f) = E_P[L(Y,f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(y,f(x))P(x,y)dxdy（随机变量函数的期望）$
我们的目的是要寻找使得风险函数最小的模型，但是由于我们的观测是有限的，所以真实的联合分布 $P (X, Y)$ 是未知的。由大数定律我们知道，随机变量的样本均值会趋近于总体均值，所以这里我们就想到用训练数据集的平均损失来近似风险函数。平均损失(也叫经验风险)可以表示为：
$R_{emp}(f) = \frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))$
经验风险最小化与结构风险最小化

现实中样本数量是有限的，有时可能还会很小，所以用经验风险估计期望风险常常是不理想的（后面会讲为什么不理想），要对经验风险进行一定的矫正，也就对应到监督学习中的两个策略。
- 经验风险最小化
  
  经验风险最小化（ERM）策略认为，经验风险最小的模型是最优的模型，所以按照此策略求解模型就是求解如下的最优化问题：
  $\min_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i))$
  
  极大似然估计就是经验风险最小化的例子，证明如下：
  
  设模型的条件概率分布为 $P_\theta(Y|X)$ ，样本为： $x_i,y_i),i=1,2..N$
  
  对数损失函数为： $L (Y, P (Y ∣ X)) = - l o g P (Y ∣ X)$
  
  经验风险： $R_{emp} = \frac{1}{N}\sum_{i=1}^N-logP(y_i|x_i)$
  
  最小化求解：
  $\arg\min_{f\in \mathcal{F}} \frac{1}{N}\sum_{i=1}^N-logP(y_i|x_i)\\ = \arg\max _{f \in \mathcal{F}} \frac{1}{N}\sum_{i=1}^NlogP(y_i|x_i)\\ = \frac{1}{N}\ \arg\max _{f \in \mathcal{F}}log \prod_{i=1}^N P(y_i|x_i)$
  而我们求解极大似然估计时一般转化为极大化对数似然函数：
  $L(\theta) = log\prod_{i=1}^N P_\theta(y_i|x_i)$
  观察可知，极大似然估计和经验风险最小化是一致的。
- 结构风险最小化
  
  样本容量很小时，容易出现过拟合现象，所以就有了结构风险最小化策略。
  
  结构风险最小化其实就是在经验风险的基础上加上了一个表示模型复杂度的惩罚，使得模型的系数不会很大，防止过拟合。
  
  为什么过拟合系数就会很大呢？
  
  过拟合就是过分的拟合训练集上的所有数据点，导致模型在未知数据的预测上效果很差。因为我们要拟合所有的数据点，我们就要用更复杂的模型，最终形成的拟合函数波动很大。在某些很小的区间里，函数值的变化会很剧烈。这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。
  
  结构风险的定义：
  $R_{srm}(f) = \frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f),\quad J(f) 为模型的复杂度$
  结构风险最小化（SRM）策略要求经验风险和模型的复杂度要同时小。即：
  $\min_{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^NL(y_i,f(x_i)) + \lambda J(f)$
  
  当模型是条件概率分布、损失函数为对数损失函数，模型复杂度由先验概率表示的时候，结构风险最小化就等价于贝叶斯最大后验估计。

1.3.3 算法

算法其实就是我们求解上述策略中最优化问题的方法，有时我们的最优化问题没有解析解，那么就需要用数值的方法求解，也就是我们所说的算法。常见的算法比如说：梯度下降、牛顿法、EM算法等。

1.4 模型的评估与模型选择

1.4.1 模型评估

一个完整的统计学习步骤其实可以认为是定模型—解参数。所以如果我们对于一个问题有不同的模型假定，我们就可以得到不同的模型结果。这不同的模型到底哪一个更好呢？那么在损失函数给定的情况下，基于损失函数的模型的训练误差和测试误差就是一个很好的评估标准了。（我们在评估模型时的损失函数和求解模型时的损失函数可以不一样，但是一般二者一致是更理想的）

比如对于分类问题，有预测准确率和误差率，对于回归问题有误差平方和等。

1.4.2 过拟合与模型选择

假设空间中存在着不同复杂的模型时，就要面临模型选择问题。对于一个问题，我们并不是要求模型越复杂越好，而是希望去拟合一个更接近于真实模型的模型。

模型的复杂度增加时，训练误差会逐渐衰减到0，但是测试误差会先减小后增大，所以模型的复杂度过大的话，就会出现过拟合问题。我们选择的模型复杂度应该是使得测试误差达到最小的那个模型。通常有两种模型选择的方法：正则化和交叉验证，将在下节给出解释。

1.5 正则化与交叉验证

1.5.1 正则化

在经验风险上加上一个正则化项就能够起到防止过拟合的问题，正则化项一般是模型复杂度的单调递增函数。一般具有如下形式：
$\min_{f \in \mathcal{F}} \frac{1}{N}\sum_{i=1}^N L(y_i,f(x_i)) + \lambda J(f)$
正则化项在不同的问题中可以取不同的形式：

在回归问题，损失为平方损失时，正则化项可以去参数向量的 $L_2$ 范数：
$L(\theta) = \frac{1}{N}\sum_{i=1}^N (f(x_i;\theta) - y_i)^2 + \frac{\lambda}{2}||\theta||^2$

以参数为二维的情况为例：
加入正则项其实就相当于在正则项的约束下求解经验风险的最优化问题，把经验风险的等值线（使得经验风险相等的参数组合）和正则项约束绘制在同一个坐标系中如下：

二维平面下 $L_2$ 正则化函数是参数的平方和，体现在图中就是一个圆。在圆的约束下求解问题就是找等值线和圆的切点。如图可以看出，由于我们加入了约束，所以我们最终是在等值线左下部分区域选择，也就是说每个参数取值都不很大，也就起到了防止过拟合的问题。
$L_1$ 范数惩罚：
$L(\theta) = \frac{1}{N}\sum_{i=1}^N (f(x_i;\theta) - y_i)^2 + \frac{\lambda}{2}||\theta||^1$
$L_1$ 范数惩罚不仅能起到防止过拟合的问题，还可以得到稀疏解，也就是起到变量选择的目的：

同样的，我们绘制出经验风险等值线和一范数惩罚约束：

可以看出，此时我们的解能够在菱形的顶点处取得，这时一个参数会缩减到0，也就达到了变量选择的目的。

正则化符合“奥卡姆剃刀原则”，简单的理解为：“如无必要，勿增实体”，即“简单有效原理”，在这里也就是在同等误差的前提下，我们会倾向于选择更简单的模型。

1.5.2 交叉验证

一般情况下，我们会将数据集分割为训练集、验证集和测试集三部分。训练集用来训练模型，验证机用于模型选择，测试集用于模型的评估。但是实际中往往数据集体量很小，这样分割可能会使得某一个部分的数据量过小而达不到我们想要的效果，所以就有了交叉验证的方法。交叉验证最重要的思想就是重复使用数据。

简单交叉验证

简单交叉验证就是：随机的将数据分为两部分，一部分训练模型，一部分做测试集，然后用训练集在各种条件下训练不同的模型，在测试集上评价各个模型的测试误差，最终进行选择。
K 折交叉验证

首先随机将数据分割成 K 组大小相同的子集，每次利用（k-1）个子集的数据进行训练，用剩下的一个子集数据做测试，这样重复做 k 次，直到每组数据都既做了测试也做了训练，最终选取误差最小的模型。
留一交叉验证

留一交叉其实是 k 折交叉的一种情况，即：把每个样本都单独分为一组。往往在数据量很小的时候会选取这种方法，如果数据量适中，或者比较大的话，这种方法会增加计算复杂程度。

1.6 模型泛化能力

模型的泛化能力其实就是模型对于未知数据的预测能力。

泛化误差：如果我们学到的模型是 $\hat f$ ，那么用这个模型对未知数据预测的误差就是泛化误差，即：
$R_{EXP}(\hat f) = E_P[L(Y,\hat f(X))] = \int_{\mathcal{X} \times \mathcal{Y}}L(y,\hat f(x))P(x,y)dxdy$
其实就是我们学习到的模型的期望风险。

1.6.2 泛化误差上界

我们的学习方法的泛化能力往往是通过研究泛化误差的概率上界进行的，简称为泛化误差上界。泛化误差上界有两个性质，一是它是样本容量的函数，当样本容量增加时，泛化上界趋于0；它是假设空间容量的函数，假设空间越大，泛化误差上界就越大。

自己的理解：

第一个性质：样本容量趋于无穷的话，也就是说我们穷尽了这个模型的所有样本，那么我们得到的就是真实的模型，所以泛化误差上界就会趋于0.

第二个性质：
假设空间容量越大也就是模型的个数越多，那么我们在学习的时候就会更难学习到真的模型，所以泛化误差上界就越大。）

**定理1.1（泛化误差上界）**对于二分类问题，当假设空间是有限个函数的集合

$\mathcal{F} = \{f_1,f_2...f_d\}$ 时，对任意一个函数 $\in \mathcal{F}$ ，至少以概率 $1-\delta$ ，以下不等式成立：
$\leqslant \hat R(f) + \varepsilon(d,N,\delta)\\ \varepsilon(d,N,\delta) = \sqrt{\frac{1}{2N}(log\ d + log \ \frac{1}{\delta})}$

证明如下：

Hoeffding不等式：设 $S_n = \sum_{i=1}^n X_i$ ， $X_i$ 为相互独立的随机变量， $X_i \in [a_i,b_i]$ ，则对于任意 $t > 0$ ，以下不等式成立：
$P(|S_n - ES_n| \geqslant t) \leqslant exp(\frac{-2t^2}{\sum_{i=1}^n (b_i - a_i)^2})$
我们这里将 $\hat R(f)$ 看做是 N 个独立的随机变量 $L (Y, f (X))$ 的样本均值， $R (f)$ 是随机变量 $L (Y, f (X))$ 的期望值。如果损失函数的取值区间为 $[0, 1]$ ，根据Hoeffding 不等式有：
$\hat R(f)) \geqslant t] \leqslant exp(\frac{-2t^2}{\sum_{i=1}^N (1 - 0)^2})\\ 即：P[R(f)- \hat R(f) \geqslant t/N ] \leqslant exp(\frac{-2t^2}{ N})\\ 若取 \varepsilon = t/N有：P[R(f)- \hat R(f) \geqslant \varepsilon ] \leqslant exp(-2N\varepsilon^2)$
由于我们的假设空间是有限集，那么：
$P(\exist f \in \mathcal{F}:R(f)-\hat R(f) \geqslant \varepsilon) = P(\bigcup_{f \in \mathcal{F}} \{R(f)-\hat R(f) \geqslant \varepsilon\})(这里可以理解为：存在一个f满足条件等价于所有f并起来满足条件)\\ \leqslant \sum_{f \in \mathcal{F}} P(R(f)-\hat R(f) \geqslant \varepsilon)(这里是运用概率中的和事件的概率小于等于各个事件概率的和)\\ \leqslant d*exp(-2N\varepsilon^2)(假设空间共有d个模型)$
或者等价的：
$P(R(f)-\hat R(f) < \varepsilon) \geqslant 1-\delta, \quad (\delta = d*exp(-2N\varepsilon^2))$

泛化误差上界的意义是：我们至少有 $1-\delta$ 的概率保证 $\hat R(f) + \varepsilon$ ，当 N 很大时， $1-\delta$ 趋近于1。也就是说训练误差小的模型，其泛化误差也会小。

1.7 生成模型与判别模型

监督学习方法可以分成生成方法和判别方法，对应的模型分别称为生成模型和判别模型。

生成方法

生成方法由数据学习联合概率分布 $P (X, Y)$ ，然后求解条件概率分布 $P (Y ∣ X)$ 作为预测模型，即生成模型为：
$\frac{P(X,Y)}{P(X)}$
生成方法的学习收敛速度更快，并且可以用于模型存在隐变量的时候。典型的生成模型：朴素贝叶斯和隐马尔可夫模型
判别方法

判别方法由数据直接学习决策函数 $f (X)$ 或者条件概率分布 $P (Y ∣ X)$ 作为预测模型。判别方法直接面对预测，往往学习的准确率会更高。

典型的判别模型：k 近邻、感知机、决策树、逻辑回归、支持向量机、条件随机场等。

统计学习分为三大类：分类问题、回归问题和标注问题，下面逐一介绍。

1.8 分类问题

当输出是有限个离散值时对应的问题就是分类问题（对于输入无要求）。

监督学习从数据中学习一个分类模型或者分类决策函数，称为分类器。

对于二分类问题常用的评价指标是精确率（precision）与召回率（recall），通常我们关注的类记为正类，其他的为负类。四个指标：

TP——将正类预测为正类（真正）
FN——将正类预测为负类（假负）
FP——将负类预测为正类（假正）
TN——将负类预测为负类（真负）

所以我们的样本经过预测后的结果可以用一个混淆矩阵表示：

	预测为正类	预测为负类
正类	TP	FN
负类	FP	TN

精确率定义：(因为我们关心的是正类，所以精确率是基于正类定义的)
$\frac{TP}{TP + FP}（也就是预测为正类的有多少是真的正类）$
召回率定义：
$\frac{TP}{TP+FN}（也就是我们的正类样本有多少被预测正确了）$

召回率为啥叫召回率呢？

我记得有位老师讲的是比如在电子元件厂，我们关心的是元件是否有质量问题（正类），如果有质量问题那么我们就要把问题元件召回，那么真的有问题的元件被召回了多少呢？这个比例就是我们所求的召回率。

有时我们还会综合使用精确率和召回率来计算一个 F 值作为判定标准：
$\frac{2TP}{2TP + FP +FN}$

1.9 标注问题

标注问题可以看作是分类问题的一个推广，他的输出不再是单个的一个结果，而是一个标记序列或状态序列。

标注问题在信息处理和自然语言处理（NLP）中都有广泛的应用。

1.10 回归问题

回归变量用于预测输入变量与输出变量之间的关系，回归模型表示了从输入变量到输出变量的映射。

回归问题最常用的损失函数就是平方损失函数，在此情况下，回归问题可以通过最小二乘方法求解。

努力学习的小王同学！

关注

2
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
李航《统计学习方法》第一章学习笔记

1.1 关于统计学习定义统计学习是从数据出发，提取数据的特征，抽象出数据的模型，最后又回到对数据的分析和预测中去。分类统计学习包括监督学习、非监督学习、半监督学习、强化学习等，监督学习是本书重点。三要素统计学习的方法大致可以表述为：从现有的数据出发，在模型的假设空间（模型的集合）上运用某个评价准则，从假设空间中选取一个最优的模型，并且设计选取规则算法。简言之，三要素就是：模型、策略、算法。1.2 监督学习监督学习是指我们的数据带有标签的学习过程，也就是监督学习的所用的数据其实
复制链接

扫一扫