机器学习笔记之变分推断(二)公式推导过程(基于平均场假设)

静静的喝酒

已于 2022-12-23 16:33:18 修改

阅读量2k

点赞数 3

分类专栏：机器学习文章标签：变分推断推断平均场假设概率密度积分

于 2022-09-15 16:45:30 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/126864338

版权

机器学习笔记之变分推断——基于平均场假设的公式推导过程

引言

引言

上一节介绍了分别从频率角度和贝叶斯角度认识机器学习问题，并介绍了推断(Inference)在整个贝叶斯角度的重要作用。本节将正式介绍确定性近似推断的代表方法——变分推断(Variational Inference)

提示：本节推导过程与EM算法部分存在相似之处，请对比食用，谢谢。

回顾：推断与变分推断

关于从贝叶斯角度认识问题，本质上是给定样本集合 $\mathcal X$ ，针对陌生数据 $\hat x$ 的预测问题，即 $P(\hat x \mid \mathcal X)$ 。

基于上述逻辑，贝叶斯角度的具体做法是：针对样本集合 $\mathcal X$ 构建模型，通过模型参数 $\theta$ 作为样本集合 $\mathcal X$ 与陌生数据 $\hat x$ 之间构建关系的桥梁，将 $P(\hat x \mid \mathcal X)$ 表示为如下形式：
$\begin{aligned} P(\hat x \mid \mathcal X) & = \int_{\theta} P(\hat x ,\theta \mid \mathcal X) d\theta \\ & = \int_{\theta} P(\hat x \mid \theta) \cdot P(\theta \mid \mathcal X)d\theta \end{aligned}$

基于上述公式，使用贝叶斯定理求解 $P(\theta \mid \mathcal X)$ ：
$\begin{aligned} P(\theta \mid \mathcal X) & = \frac{P(\mathcal X \mid \theta) \cdot P(\theta)}{P(\mathcal X)} \end{aligned}$
至此，关于求解 $P(\theta \mid \mathcal X)$ 的过程称为推断；
关于样本数据的边缘概率分布 $P(\mathcal X)$ 可看成一个积分操作：
引入‘隐变量’。
$\begin{aligned} P(\mathcal X) & = \int_{\mathcal Z} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z)d\mathcal Z \\ & = \int_{z_1} \cdots \int_{z_{\mathcal K}} P(\mathcal X \mid \mathcal Z) \cdot P(\mathcal Z) d z_,\cdots,z_{\mathcal K} \end{aligned}$
如果引入的隐变量 $\mathcal Z = (z_1,\cdots,z_{\mathcal K})^{T}$ 中的维度 $\mathcal K$ 过高，导致 $P(\mathcal X)$ 积分困难，最终使得 $P(\theta \mid \mathcal X)$ 无法求解。
因此，需要使用一些方法近似求解 $P(\theta \mid \mathcal X)$ 。而变分推断(Variational Inference,VI)就是 近似推断中，确定性近似的代表方法。

变分推断：公式推导过程

近似推断(Approximate Inference)的核心观点是针对 $\int_{\mathcal Z} P(\mathcal X \mid Z) \cdot P(\mathcal Z)d\mathcal Z$ 积分困难的问题，通过找出一个关于隐变量 $\mathcal Z$ 的概率分布 $\mathcal Q(\mathcal Z)$ 去逼近后验概率分布 $P(\mathcal Z \mid \mathcal X)$ 。即：
$\mathcal Q(\mathcal Z) \approx P(\mathcal Z \mid \mathcal X)$
这里定义：

$\mathcal X$ 为观测变量(Observed Data)，即真实的样本数据；
$\mathcal Z$ 表示 隐变量(Latent Data)和 模型参数(Parameter)的统称。
因为‘隐变量’本身就不真实存在，它只是一个‘表达’概率模型的中间环节。因此，‘隐变量 + 模型参数’合并在一起是合理的。
该定义与EM算法中的定义式略有区分的，EM算法中，隐变量是隐变量，参数是参数。
依然将联合概率分布 $(\mathcal X,\mathcal Z)$ 称作 完整数据(Complete Data)。

初始转化过程

在EM算法中，底层逻辑是使用极大似然估计(Maximum Likelihood Estimate,MLE)进行求解，并且求解的是模型参数 $\theta$ ；
在变分推断求解过程中，模型参数 $\theta$ 合并进隐变量 $\mathcal Z$ 中。这里依然从概率模型 $P(\mathcal X)$ 入手，执行推导过程：
条件概率公式~为方便推导过程，依然保留‘log函数’。
$\begin{aligned} \log P(\mathcal X) & = \log \left[\frac{P(\mathcal X,\mathcal Z)}{P(\mathcal Z \mid \mathcal X)}\right] \\ & = \log P(\mathcal X,\mathcal Z) - \log P(\mathcal Z \mid \mathcal X) \end{aligned}$

和EM算法推导思路相同，引入一个关于隐变量的概率分布 $\mathcal Q(\mathcal Z)$ 。则有：
$\begin{aligned} \log P(\mathcal X) & = \left[\log P(\mathcal X,\mathcal Z) - \log \mathcal Q(\mathcal Z)\right] - \left[\log P(\mathcal Z \mid \mathcal X) - \log \mathcal Q(\mathcal Z)\right] \\ & = \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right] - \log \left[\frac{P(\mathcal Z \mid \mathcal X)}{\mathcal Q(\mathcal Z)}\right] \end{aligned}$
等式两端分别对 $\mathcal Q(\mathcal Z)$ 求积分：
- 等式左端：
  $\int_{\mathcal Z} \log P(\mathcal X) \cdot \mathcal Q(\mathcal Z) d\mathcal Z = \log P(\mathcal X) \int_{\mathcal Z} \mathcal Q(\mathcal Z) d\mathcal Z = \log P(\mathcal X)$
- 等式右端：
  $\begin{aligned} \int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z - \int_{\mathcal Z}\mathcal Q(\mathcal Z) \cdot \log\left[\frac{P(\mathcal Z \mid \mathcal X)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z \end{aligned}$
在EM算法中定义 $\int_{\mathcal Z} \mathcal Q(\mathcal Z) \cdot \log \left[\frac{P(\mathcal X,\mathcal Z)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z$ 为 证据下界(Evidence Lower Bound,ELBO)；
$\int_{\mathcal Z}\mathcal Q(\mathcal Z) \cdot \log\left[\frac{P(\mathcal Z \mid \mathcal X)}{\mathcal Q(\mathcal Z)}\right] d\mathcal Z$ 是关于 $\mathcal Q(\mathcal Z)$ 和隐变量 $\mathcal Z$ 的后验概率分布 $P(\mathcal Z \mid \mathcal X)$