经验风险最小化、结构风险最小化、极大似然估计、最大后验概率估计...||《统计学习方法》李航_第1章_蓝皮（学习笔记）

最新推荐文章于 2023-10-22 11:39:20 发布

Rlin_by

最新推荐文章于 2023-10-22 11:39:20 发布

阅读量1.8k

点赞数 2

分类专栏：统计学习方法

本文链接：https://blog.csdn.net/Rlin_by/article/details/90112192

版权

统计学习方法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

第1章统计学习方法概论

监督学习
统计学习三要素
- 模型
- 策略（经验风险和结构经验风险）
判别模型与生成模型
补充（含课后作业）

挑重点记录一下。

监督学习

监督学习有一个重要的假设：设输入的随机变量 $X$ 和 $Y$ 遵循联合概率分布 $P\left( {X,Y} \right)$ ，所有数据是独立同分布的。

统计学习三要素

包括模型、策略、算法（书中算法没有细讲）

模型

在监督学习过程中，模型是要学习的条件概率分布或者决策函数。模型的假设空间记为 $\mathcal F$ 。

假设空间包括决策函数的集合： $\mathcal F$ = $\{ \it f \ | \ Y=\it f (X)\}$
$\mathcal F$ 通常是有参数 $\theta$ 决定的： $\mathcal F$ = $\{ \it f\ |\ Y=\it f_\theta (X),\theta \in \bf R^n \}$
假设空间是条件概率的集合： $\mathcal F$ = ${P\ |\ P ( Y|X ) \}$
$\mathcal F$ 通常是有参数 $\theta$ 决定的： $\mathcal F$ = $\{P\ |\ P_\theta ( Y|X ), \theta \in \bf R^n \}$

策略（经验风险和结构经验风险）

有了模型，就要考虑按照什么准则学习，或者如何选择最优模型

损失函数和风险函数
●损失函数一般指衡量预测值 $\it f (X)$ 和真实 $Y$ 之间差异,常用的有：
(1)平方误差： $\it f(X)) = (Y - \it f (X))^2$
(2)对数似然函数： $\it f(X)) = -log P(Y | X)$
●风险函数指理论上模型 $\it f (X)$ 关于 $P (X, Y)$ 的期望：
$R_{exp} (f) = E_p[L(Y, \it f(X)) ]$ = $\int_{x,y}^{}\ {L(y, \it f(x))P( x,y )}\ dxdy$
然而，我们没有那么多数据，所以引出了：
经验风险和结构经验风险
●经验风险就是在给定的N个数据 $(x_i,y_i),i \in \{1...N\}$ 情况下，利用大数定律，用经验风险逼近期望风险，公式如下：
$R_{emp}(f) = \frac {1} {N} \sum_{i=1}^{N} {L(y_i, \it f(x_i))}$
但是由于样本不多，所以引入结构风险：
●结构风险是为了防止过拟合（在样本数量不足但参数过多时容易过拟合，公式如下：
$R_{srm}(f) = \frac {1} {N} \sum_{i=1}^{N} {L(y_i, \it f(x_i))} \ +\ \lambda J(\it f)$
$J(\it f)$ 是复杂度，模型越复杂， $J(\it f)$ 就越大，也就是说复杂度表示了对复杂模型的惩罚。

因此我们的策略就是求解最小化经验风险或者结构风险：
$\min \limits_{\it f \in \mathcal F} \ \frac {1} {N} \sum_{i=1}^{N} {L(y_i, \it f(x_i))} \ +\ \lambda J(\it f)$

另外,
$\color{Red}{当模型是条件概率分布，损失函数是负对数函数时，经验风险最小化等价于极大似然估计（MLE）；}$
$\color{Red}{结构风险最小化等价于最大后验概率估计（MAP）}$ . . . . . . . . 后面会证明。

判别模型与生成模型

生成方法
由数据学习得到联合概率分布 $P\left( {X,Y} \right)$ ，然后求出条件概率分布 $P (Y ∣ X)$
主要模型有：朴素贝叶斯模型和隐马尔可夫模型，比较难。
判别方法
由数据直接学习 $P (Y ∣ X)$ 或者判别函数 $\it f (X)$
主要模型有：k近邻、感知器、决策树、逻辑回归、最大熵模型、SVM、条件随机场等。

补充（含课后作业）

先介绍一下极大似然估计、最大后验概率估计以及贝叶斯估计（每次看见这几个都有点恍惚，这次要全部弄懂！）

MLE、MAP和贝叶斯估计

首先弄明白估计是在估计什么：三种估计都是对概率分布的参数进行求解，比如高斯分布的均值 $\mu$ 、方差 $\sigma$ 或者伯努利分布的概率 $p$ ，以上所有都用 $\theta$ 代替。
也就是说，我们可能有一堆数据，知道 $P(X|\theta)$ （求参数），其中 $\theta$ 是变量，那怎么求（找策略），所以有三种策略，极大似然估计、MAP和贝叶斯估计。

因为经常搞不清条件概率和似然函数的区别，所以查了很多资料，下面这个理解感觉能解释得通：

对于这个函数： P(x|θ)
P(x|θ) 输入有两个：x表示某一个具体的数据；θ表示模型的参数。
如果θ是已知确定的，x是变量，这个函数叫做概率函数(probability function)，它描述对于不同的样本点x，其出现概率是多少。
如果x是已知确定的，θ是变量，这个函数叫做似然函数(likelihood function), 它描述对于不同的模型参数，出现x这个样本点的概率是多少。

举例（作业题）：求N次独立伯努利实验下，结果中有k次的结果为1（说明所有x已知），估计结果为1的概率（求参数）。
其中伯努利分布是一个0-1分布，即P(x=1)=θ, P(x=0)=1-θ;
对应的似然就是P(x=1 | θ)=θ, P(x=0 | θ)=1-θ;（注意是小写x）

证明经验风险最小化等价于极大似然估计（在特定条件下）

1. 极大似然估计
所以依据所有实验数据， $\color{Red}{似然函数等于所有似然概率的乘积}$ （一般都是这样定义），加上我们独立同分布的假设，得到似然函数(注意我们求解的依然是条件概率)：
$L(\theta | X)=P(X|\theta) = \prod_{i=1}^{N}{P(x_i|\theta)}$
我们一般写成对数形式，方便求解，即，
$L(\theta | X)= \sum_{i=1}^{N}{lnP(x_i|\theta)}$
极大似然估计，就是求使得似然函数概率最大的值，则我们得到优化函数：
$\max \limits_{\theta} L(\theta | X)=\max \limits_{\theta} \sum_{i=1}^{N}{lnP(x_i|\theta)}$
取负对数：
$\min \limits_{\theta} L(\theta | X)=\min \limits_{\theta} \sum_{i=1}^{N}{-lnP(x_i|\theta)}$
比较经验风险最小化： $\min \limits_{\it f \in \mathcal F} \ \frac {1} {N} \sum_{i=1}^{N} {L(y_i, \it f(x_i))}$
$\color{Red}{可以看到极大似然估计取负对数时与经验风险最小化等价}$
求解的算法就是求导，另导数为0即可得到最优 $\theta^*$

得到 $\theta$ 的目的也是为了预测，我们的最终目的是去预测新事件基于这个参数下发生的概率：

因为是估计值，所以是约等于

因此，带入作业可以得到
$L(\theta) = \prod_{i=1}^{N}{P(x_i|\theta)} = {\theta}^k {(1-\theta)}^{N-k}$
对数形式为
$L(\theta | X)= \sum_{i=1}^{N}{lnP(x_i|\theta)} = ln {\theta}^k {(1-\theta)}^{N-k}$
求导赋0得
$kln\theta + (N-k)ln(1-\theta)=0$
解得
$\theta^* = \frac{k}{N}$

可以看出，极大似然估计以实验中概率大的结果，没有考虑先验信息等。因此提出最大后验概率策略。

证明结构风险最小化与最大后验概率等价（在特定条件下）

2.最大后验概率估计
最大后验概率引入了参数的先验概率，根据贝叶斯公式，后验概率为：

$P(\theta|X)= {P(X|\theta) P(\theta)}/{P(X)}$ ,但在一个实验中，如N次伯努利实验，正反面的概率已知，所以 $P (X)$ 是已知的。因此我们可以认为最大后验概率是求 $P(X|\theta)P(\theta)$ 最大。
此时的似然函数为：
$L(\theta | X)=P(\theta|X) \propto \prod_{i=1}^{N}{P(x_i|\theta)P(\theta)}$
对数形式为：
$L(\theta | X)= \sum_{i=1}^{N}{lnP(x_i|\theta)+lnP(\theta)}$
优化函数：
$\max \limits_{\theta} L(\theta | X)=\max \limits_{\theta} \sum_{i=1}^{N}{lnP(x_i|\theta) + lnP(\theta)}$
取负对数：
$\min \limits_{\theta} L(\theta | X)=\min \limits_{\theta}- \{\sum_{i=1}^{N}{lnP(x_i|\theta) + lnP(\theta)}$ }
比较结构风险最小化：
$\min \limits_{\it f \in \mathcal F} \ \frac {1} {N} \sum_{i=1}^{N} {L(y_i, \it f(x_i))} \ +\ \lambda J(\it f)$
$\color{Red}{可以看到最大后验概率估计取负对数时与结构风险最小化等价}$