（《机器学习》完整版系列）第7章贝叶斯分类器——7.8 再谈极大似然（对数边际似然）

人工干智能

已于 2023-03-31 10:36:04 修改

阅读量506

点赞数

分类专栏：周志华【西瓜书】辅导《机器学习》文章标签：机器学习线性代数概率论

于 2023-02-26 17:09:09 首次发布

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129228608

版权

周志华【西瓜书】辅导同时被 2 个专栏收录

143 篇文章 29 订阅

订阅专栏

《机器学习》

143 篇文章 5 订阅

订阅专栏

本文介绍了概率模型中的似然概念，包括单个样本的似然、一类样本的似然以及整个数据集的对数边际似然。在有隐变量的情况下，通过边际化处理来减少概率中的变量。极大似然估计用于找到使数据集似然最大的参数，但在存在未观测变量时，需要用到EM算法来处理对数似然的计算问题。

摘要由CSDN通过智能技术生成

一个样本的似然、一组同类样本的似然、整个数据集上的似然
对数似然（对数边际似然）：通过求期望（求和或求积分）来减少概率中的变量称为边际化。

再谈极大似然

回顾极大似然估计MLE，我们先讨论关键概念“似然”。

（1）当关注分类时，参数视为与类别标识直接相关的，即 ${\Theta}_c$ ，这时为7.3 极大似然法篇的内容，即

一个样本的似然： $P(\boldsymbol{x}\,|\,c )$ ，更一般为： $P(\boldsymbol{x}\,|\,{\Theta}_c )$ ，可依属性进行分解，如，朴素贝叶斯和半朴素贝叶斯假设。
一组同类样本的似然：数据集 $D$ 的 $c$ 类构成子集 $D_c$ ，则该子集的似然为 $P(D_c\,|\,{\Theta}_c )$ ，可依样本进行分解，得【西瓜书式(7.9)】。

（2）当并不是关注分类（如，无监督学习）时，上述参数中的下标 $c$ 即可去掉，特别地，这时可以在整个数据集 $D$ 上（ $D$ 中可以含有重复的样本）考察“似然”
$\begin{align} P(D\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in D}P(\boldsymbol{x}\,|\,\Theta) \tag{7.50} \end{align}$
其中， $D=\{\boldsymbol{x}_i\}_{i=1}^m$ 。

似然分解成积后，易想到用对数来进行运算处理，这就是“对数似然”。

类似于上节中将 $\boldsymbol{x}$ 分解为证据变量集 $\boldsymbol{E}$ 和待查询变量集 $\boldsymbol{Q}$ ，这里改一下名称：设 $\boldsymbol{x}=(\boldsymbol{E},\boldsymbol{Q})$ ，其中， $\boldsymbol{E}$ 是观测变量集，而 $\boldsymbol{Q}$ 是未观测变量集（未观测变量称为“隐变量”）。

将 $D$ 视为一个矩阵（称为设计矩阵）：每行为一个样本，每列为一个属性，则该矩阵大小为 $m\times d$ 。现在将矩阵 $D$ 依观测变量集 $\boldsymbol{E}$ 和未观测变量集 $\boldsymbol{Q}$ 分裂成左右两个子矩阵，即 $D=(\mathbf{X},\mathbf{Z})$ ，则式(7.50)变为
$\begin{align} P(\mathbf{X},\mathbf{Z}\,|\,\Theta )=\mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta) \tag{7.51} \end{align}$
其中， $\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})$ 表示 $\boldsymbol{x}$ 是矩阵 $(\mathbf{X},\mathbf{Z})$ 的一行。

使用对数似然公式，则式(7.51)变为
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X},\mathbf{Z}) & =\ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta )\tag{7.52} \\ & =\ln \mathop{\prod }\limits_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}P(\boldsymbol{x}\,|\,\Theta)\notag \\ & =\sum_{\boldsymbol{x} \in (\mathbf{X},\mathbf{Z})}\ln P(\boldsymbol{x}\,|\,\Theta) \tag{7.53} \end{align}$

我们知道，对变量求期望可以消去该变量，如，消去隐变量
$\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) & =P(\mathbf{X}\,|\,\Theta) \tag{7.54} \end{align}$

由此，我们得到已观测数据 $\mathbf{X}$ 的对数似然（对数边际似然）。注：通过求期望（求和或求积分）来减少概率中的变量称为边际化。
$\begin{align} \mathrm{LL}(\Theta\,|\,\mathbf{X}) & =\ln P(\mathbf{X}\,|\,\Theta)\tag{7.55} \\ & =\ln \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, P(\mathbf{X},\mathbf{Z}\,|\,\Theta) %&=\ln \mathop{\sum}\limits_{\mathbf{Z}} P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.56} \end{align}$
将 $\mathbb{E}$ 改为离散的 $\sum$ 即为【西瓜书式(7.35)】。

极大似然的朴素观念：事件既然发生了，我就“猜”它是概率最大时发生的。 “事件发生”是指产生了已有的数据集，在有隐变量时，已有的数据集就是“证据” $\mathbf{X}$ ，极大（对数）似然法这时应考虑的是“证据” $\mathbf{X}$ 已发生，即采用极大（对数）边际似然，式(7.56)即

$\begin{align} {\Theta}^*=\mathop{\arg\max}\limits_{\Theta}\mathrm{LL}(\Theta\,|\,\mathbf{X}) \tag{7.57} \end{align}$

然而，式(7.56)中， $\ln$ 由于隔着 $\mathop{\mathbb{E}}\limits_{\mathbf{Z}}$ （如 $\sum$ ）不能作用于 $P(\mathbf{X},\mathbf{Z}\,|\,\Theta)$ 的分解式，故直接用式(7.57)碰到了困难，这就导致了对“强制”交换后的式子
$\begin{align} \mathop{\mathbb{E}}\limits_{\mathbf{Z}}\, \ln P(\mathbf{X},\mathbf{Z}\,|\,\Theta) \tag{7.58} \end{align}$
的研究，从而产生了EM算法。