机器学习笔记之配分函数(一)对数似然梯度

静静的喝酒

已于 2022-12-20 14:30:52 修改

阅读量1.2k

点赞数 1

分类专栏：机器学习文章标签：人工智能对数似然梯度配分函数梯度求解

于 2022-12-05 18:23:49 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128186475

版权

机器学习专栏收录该内容

195 篇文章 231 订阅

订阅专栏

机器学习笔记之配分函数——对数似然梯度

引言

引言

从本节开始，将介绍配分函数。[花书第三部分——第18章直面配分函数(Confronting Partition Function)]

回顾：过去介绍配分函数的相关结点

最早介绍配分函数(Partition Function)在指数族分布中。关于指数族分布的概率密度函数 表示如下：
其中 $\mathcal X$ 表示随机变量集合; $\eta$ 表示模型参数。
$\begin{aligned} \mathcal P(\mathcal X \mid \eta) & = h(\mathcal X) \exp \left[\eta^T \phi(\mathcal X) - \mathcal A(\eta)\right] \\ & = \frac{h(\mathcal X)}{\exp[\mathcal A(\eta)]} \exp \left[\eta^T \phi(\mathcal X)\right] \end{aligned}$
令 $\mathcal Z = \exp \left[\mathcal A(\eta)\right]$ ，称 $\mathcal Z$ 为配分函数，称 $\mathcal A(\eta)$ 为 对数配分函数 (Log Partition Function)。
在介绍马尔可夫随机场的表示(Representation)过程中，使用团(Clique)和势函数(Potential Functions)对随机变量集合 $\mathcal X$ 的联合概率分布 $\mathcal P(\mathcal X)$ 进行表示：
$\mathcal K$ 表示极大团的数量/编号； $\psi_i(x_{\mathcal C_i})$ 表示极大团 $x_{\mathcal C_i}$ 对应的势函数结果； $\mathcal X \in \mathbb R^p$ .
$\mathcal P(\mathcal X) = \frac{1}{\mathcal Z}\prod_{i=1}^{\mathcal K} \psi_i(x_{\mathcal C_i})$
而这里的 $\mathcal Z$ 也是配分函数，对势函数结果起到一个归一化作用，并将其映射成概率分布：
$\begin{aligned} \mathcal Z & = \sum_{\mathcal X} \prod_{i=1}^{\mathcal K} \psi_i(x_{\mathcal C_i}) \\ & = \sum_{x_1,\cdots,x_p} \prod_{i=1}^{\mathcal K} \psi_i(x_{\mathcal C_i}) \end{aligned}$

配分函数介绍

配分函数在哪些情况下会“直面”到？

求解配分函数的目的是针对 $\text{Learning}$ 问题：给定样本集合 $\mathcal X$ (可观测的)，将概率模型 $\mathcal P(\mathcal X;\theta)$ 中的模型参数 $\theta$ 求解出来：
如极大似然估计，最大后验概率估计，EM算法~
$\hat \theta = \mathop{\arg\max}\limits_{\theta} \mathcal P(\mathcal X;\theta)$

在参数 $\theta$ 的求解过程中，需要求解配分函数 $\mathcal Z$ 对原式进行归一化处理(Normalization)；
$\text{Evaluation}$ 问题：如果此时模型已经求解(模型参数 $\theta$ ，未归一化的概率密度函数 $\mathcal P(\mathcal X)$ 均以求解)，但是关于 $\mathcal X$ 的联合概率分布 $\mathcal P(\mathcal X ; \theta)$ 由于没有归一化因子依然无法求解。
这里所说的模型一般是指‘无向图模型’。有向图模型的求值问题，如之前介绍的隐马尔可夫模型——前向、后向算法就不会出现这种情况.
因为有向图模型可以通过‘因子分解’准确找出各随机变量之间的条件关系。当然，隐马尔可夫模型有‘齐次马尔可夫假设、观测独立性假设’的约束，可以更加简化迭代过程。

场景构建

从样本(Sample)的角度观察，样本集合 $\mathcal X$ 中包含 $N$ 个样本：
$\mathcal X = \{x^{(i)}\}_{i=1}^N$
从随机变量(Random Variable)的角度观察，已知随机变量集合 $\mathcal X \in \mathcal R^p$ ，并且 $p$ 个随机变量 $x_i(i=1,2,\cdots,p)$ 均服从伯努利分布：
$\mathcal X \in \{0,1\}^p$
那么关于 $\mathcal X$ 有效的概率分布/概率密度函数 $\mathcal P(\mathcal X;\theta)$ 表示如下：
这里说的‘有效的’指的是归一化后的、可以直接使用的概率密度函数。
$\begin{aligned} \mathcal P(\mathcal X;\theta) & = \frac{1}{\mathcal Z(\theta)} \hat {\mathcal P}(\mathcal X;\theta) \\ \mathcal Z(\theta) & = \sum_{x_1,\cdots,x_p} \hat {\mathcal P}(\mathcal X;\theta) \end{aligned}$
其中 $\hat {\mathcal P}(\mathcal X;\theta)$ 是未归一化的、从概率图模型中直接得到的概率密度函数； $\mathcal Z(\theta)$ 表示配分函数。
很明显，随机变量 $x_1,\cdots,x_p$ 全部被积分掉了。配分函数 $\mathcal Z$ 仅和模型参数 $\theta$ 相关。

包含配分函数的极大似然估计

在学习任务中，常用的求解模型参数方式是极大似然估计(Maximum Likelihood Estimation,MLE)：
依然假设样本之间属于‘独立同分布’，引入 $\log$ 函数，并不影响最值的取值结果。
$\begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \mathcal P(\mathcal X;\theta) \\ & = \mathop{\arg\max}\limits_{\theta} \log \prod_{i=1}^N \mathcal P(x^{(i)} ;\theta) \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \log \mathcal P(x^{(i)} ;\theta) \end{aligned}$
将 $\mathcal P(\mathcal X;\theta) = \frac{1}{\mathcal Z(\theta)} \hat {\mathcal P}(\mathcal X;\theta)$ 代入，有：
$\begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \log \left[\frac{1}{\mathcal Z(\theta)} \hat {\mathcal P}(x^{(i)};\theta)\right] \\ & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \left[\log \hat {\mathcal P}(x^{(i)};\theta) - \log \mathcal Z(\theta)\right] \end{aligned}$
由于配分函数 $\mathcal Z(\theta)$ 中不含 $i$ ，因而上式可继续简化：
直接在等式右侧除以 $N$ ，系数并不影响最值的取值结果。
$\begin{aligned} \hat \theta & = \mathop{\arg\max}\limits_{\theta} \sum_{i=1}^N \log \hat {\mathcal P}(x^{(i)};\theta) - N \cdot \log \mathcal Z(\theta) \\ & = \mathop{\arg\max}\limits_{\theta} \frac{1}{N}\sum_{i=1}^N \log \hat {\mathcal P}(x^{(i)};\theta) - \log \mathcal Z(\theta) \end{aligned}$

由于是求解最大值，因此将 $\mathcal L(\theta) = \frac{1}{N}\sum_{i=1}^N \log \hat {\mathcal P}(\mathcal X;\theta) - \log \mathcal Z(\theta)$ 看做目标函数，使用梯度上升法(Gradient Ascent)对模型参数近似求解：

$\mathcal L(\theta)$ 对 $\theta$ 求解梯度：
这个对应花书-直面配分函数公式(18.4)
$\nabla_{\theta} \mathcal L(\theta) = \frac{1}{N} \sum_{i=1}^N \left[\nabla_{\theta}\log \hat {\mathcal P}(x^{(i)};\theta)\right] - \nabla_{\theta} \log \mathcal Z(\theta)$
通常称 $\frac{1}{N} \sum_{i=1}^N \left[\nabla_{\theta}\log \hat {\mathcal P}(x^{(i)};\theta)\right]$ 部分为正相(Positive Phase)；称 $\nabla_{\theta} \log \mathcal Z(\theta)$ 为负相(Negative)。在当前示例中，所有随机变量均是基于样本的观测变量，不包含隐变量。因此，正相的求解仅需要将样本带入即可：
需要注意的是，每一次求解梯度都需要带入 $N$ 个样本，这种方法就是传统的‘批量梯度上升法’。 $(\text{Batch Gradient Ascent,BGA})$
‘批量梯度下降法’也是同理的。 $\text{(Batch Gradient Descent,BGD)}$
如果从已知 $N$ 个样本中选出 $m (m < N)$ 个样本计算梯度，对应名称即 $\text{(miniBatch Gradient Descent/Ascent)}$ .
$x^{(i)} \Rightarrow \frac{1}{N}\sum_{i=1}^N \frac{\nabla_{\theta} \hat {\mathcal P}(x^{(i)};\theta)}{\hat {\mathcal P}(x^{(i)};\theta)}$
受限玻尔兹曼机(Restricted Boltzmann Machine, RBM)由于观测变量给定的条件下，隐变量之间相互独立。因此，受限玻尔兹曼机是一个典型的正相容易求解，负相难求解的模型。
而负相的求解是困难的。这里着重观察 $\log \mathcal Z(\theta)$ 梯度的求解过程。
$\nabla_{\theta} \log \mathcal Z(\theta) = \frac{1}{\mathcal Z(\theta)} \nabla_{\theta} \mathcal Z(\theta)$
将 $\mathcal Z(\theta) = \sum_{x_1,\cdots,x_p} \hat {\mathcal P}(\mathcal X;\theta)$ 带入上式，有：
$\nabla_{\theta} \log \mathcal Z(\theta) = \frac{1}{\mathcal Z(\theta)}\cdot \nabla_{\theta} \sum_{x_1,\cdots,x_p} \hat {\mathcal P}(\mathcal X;\theta)$
根据牛顿-莱布尼兹公式，有：
积分-梯度符号互换。
$\nabla_{\theta} \log \mathcal Z(\theta) = \frac{1}{\mathcal Z(\theta)} \cdot \sum_{x_1,\cdots,x_p} \nabla_{\theta} \hat {\mathcal P}(\mathcal X;\theta)$
由于 $\mathcal Z(\theta)$ 自身和 $\mathcal X$ 没有任何关系(因为 $x_1,\cdots,x_p$ 均被积分掉了)，因此这里使用一些技巧：将 $\frac{1}{\mathcal Z(\theta)}$ 添加到积分号 $\sum_{x_1,\cdots,x_p}$ 中：
根据 $\mathcal P(\mathcal X;\theta) = \frac{1}{\mathcal Z(\theta)} \hat {\mathcal P}(\mathcal X;\theta)$ 有 $\frac{1}{\mathcal Z(\theta)} = \frac{\mathcal P(\mathcal X;\theta)}{\hat {\mathcal P}(\mathcal X;\theta)}$ 并带入到式子中。
$\begin{aligned} \nabla_{\theta} \log \mathcal Z(\theta) & = \sum_{x_1,\cdots,x_p} \frac{1}{\mathcal Z(\theta)} \cdot \nabla_{\theta} \hat {\mathcal P}(\mathcal X;\theta) \\ & = \sum_{x_1,\cdots,x_p} \left[\mathcal P(\mathcal X;\theta) \cdot \frac{1}{\hat {\mathcal P}(\mathcal X;\theta)} \cdot \nabla_{\theta} \hat {\mathcal P}(\mathcal X;\theta)\right] \end{aligned}$
观察 $\frac{1}{\hat {\mathcal P}(\mathcal X;\theta)} \cdot \nabla_{\theta} \hat {\mathcal P}(\mathcal X;\theta)$ ，它可以化简为：
$\frac{1}{\hat {\mathcal P}(\mathcal X;\theta)} \cdot \nabla_{\theta} \hat {\mathcal P}(\mathcal X;\theta) = \nabla_{\theta} \log \hat {\mathcal P}(\mathcal X;\theta)$
最终关于梯度 $\nabla_{\theta} \log \mathcal Z(\theta)$ 可表示为：
$\begin{aligned} \nabla_{\theta} \log \mathcal Z(\theta) & = \sum_{x_1,\cdots,x_p} \mathcal P(\mathcal X;\theta) \cdot \nabla_{\theta} \log \hat {\mathcal P}(\mathcal X;\theta) \\ & = \mathbb E_{\mathcal P(\mathcal X;\theta)} [\nabla_{\theta} \log \hat {\mathcal P}(\mathcal X;\theta)] \end{aligned}$