（《机器学习》完整版系列）第14章概率图模型——14.9 变分推断的详细推导（找一个“数学性质好的分布”来近似代替）

本文链接：https://blog.csdn.net/qiy_icbc/article/details/129682977

假定 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ 复杂（可能不好计算出来），因此，我们不直接找它，而是找一个“数学性质好的分布” $q(\boldsymbol{\mathrm{z}})$ 来近似代替它。
推导近似分布 $q(\boldsymbol{\mathrm{z}})$ 的理论基础需要用到变分法时，称为变分推断。

变分推断的详细推导

现在的任务是：已知 $p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ （或其等价形式，如，贝叶斯网络）及“其它条件”（即能找到如下的 $q(\boldsymbol{\mathrm{z}})$ ），求分布 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ 。

假定 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ 复杂（可能不好计算出来），因此，我们不直接找它，而是找一个“数学性质好的分布” $q(\boldsymbol{\mathrm{z}})$ 来近似代替它，集中精力求 $q(\boldsymbol{\mathrm{z}})$ ，实现 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})$ 的近似推断（即 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})\approx q(\boldsymbol{\mathrm{z}})$ ）。

“数学性质好的分布”的特点：

一是可分解：
$\begin{align} q(\boldsymbol{\mathrm{z}})=\prod_{i=1}^Mq_i(z_i) \tag{14.72} \end{align}$

二是好计算：指 $\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ 能方便地表达为关于 $p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ 的闭式解。

先理解变分法概念：对于求目标函数 $f (x)$ 的最大值，若 $f (x)$ 比较复杂，可以用另一个简单的函数簇 $g(x,\lambda )$ （引入一个参数 $\lambda$ ）作为 $f (x)$ 的下界，并对于任意的 $x$ ，存在 $\lambda$ 的某个值使得界是“紧的”，例如， $f(x)=-\ln(x),g(x,\lambda )=-\lambda x+\ln(\lambda )+1$ ，其中， $g(x,\lambda )$ 是关于变量 $x$ 的线性函数，并可以证明它是 $f (x)$ 的下界且关于某个 $\lambda$ 是紧的。
有了目标函数的下界函数簇后，最大化目标函数 $f (x)$ 可转化为最大化函数簇 $g(x,\lambda )$ 。形象地想象： $g(x,\lambda )$ 因 $\lambda$ 变化而形成一个托盘，托盘作为函数 $f (x)$ 的下界，它托着函数 $f (x)$ ，要最大化 $f (x)$ ，只需尽可能地举高托盘。

下面推导出近似分布 $q(\boldsymbol{\mathrm{z}})$ ，由于其理论基础需要用到变分法，故这类方法称为变分推断。

$\begin{align} & \ln\,p(\boldsymbol{\mathrm{x}})\notag \\ = & \ln\,p(\boldsymbol{\mathrm{x}})\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,p(\boldsymbol{\mathrm{x}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})} \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\left(\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\times \frac{q(\boldsymbol{\mathrm{z}})}{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}\right)\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\,\frac{p(\boldsymbol{\mathrm{z}},\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}}-\int_{\boldsymbol{\mathrm{z}}} q(\boldsymbol{\mathrm{z}})\ln\, \frac{p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})}{q(\boldsymbol{\mathrm{z}})}\,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ = & \mathcal{L} (q)+\mathrm{KL}(q||p)\tag{14.73} \\ \geqslant & \mathcal{L} (q)\tag{14.74} \end{align}$
其中，当 $p(\boldsymbol{\mathrm{z}}\,|\,\boldsymbol{\mathrm{x}})=q(\boldsymbol{\mathrm{z}})$ 时取等号。

式(14.73)即【西瓜书式(14.32)】，其中，由【西瓜书式(14.33)(14.34)】引入记号 $\mathcal{L} (q)$ 与 $\mathrm{KL}(q||p)$ ，后者称为KL散度，它具有非负性【西瓜书附录式(C.35)】。 $\mathcal{L} (q)$ 中含有变量 $p$ ，并引入了新的变量 $q$ ，式(14.74)说明 $\mathcal{L} (q)$ 为对数似然函数 $\ln\,p(\boldsymbol{\mathrm{x}})$ 的变分下界，由变分法原理知，最大化对数似然这时可转化为最大化 $\mathcal{L} (q)$ 。

注：这里的变量 $p$ 和 $q$ 均为函数，故 $\mathcal{L} (q)$ 为泛函 $g [p, g]$ 。

为使 $\mathcal{L} (q)$ 简单，考察局部 $q_j(z_j)$ ，特将 $z_j$ 从 $\boldsymbol{\mathrm{z}}$ 中分离出来，设 $\boldsymbol{\mathrm{z}}=\{z_j\}\cup\boldsymbol{\mathrm{z}}_{-j}$ ，则式(14.72)变为
$\begin{align} q(\boldsymbol{\mathrm{z}}) & =q_j(z_j)\prod_{i\neq j}^Mq_i(z_i)\notag \\ & =q_j(z_j)q_{{-j}}(\boldsymbol{\mathrm{z}}_{{-j}})\quad \text{（引入记号简记）} \tag{14.75} \end{align}$
由概率性质有
$\begin{align} \begin{cases} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} =1 \\ \int_{\boldsymbol{\mathrm{z}}_{-j}}q_{{-j}}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} =1 \\ \int_{z_j}q_j(z_j) \,\mathrm{d}z_j =1 \\ \end{cases} \tag{14.76} \end{align}$

又
$\begin{align} \mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) =\int_{\boldsymbol{\mathrm{z}}_{-j}} q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\, p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j} \tag{14.77} \end{align}$
$\begin{align} \int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} & =\int_{z_j}q_j(z_j) \left(\int_{\boldsymbol{\mathrm{z}}_{-j}}q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\right)\,\mathrm{d}z_j \quad \text{（由式(14.75)）}\notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j \quad \text{（由式(14.77)）} \tag{14.78} \end{align}$
又
$\begin{align} & \quad \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) (\ln\,q_j(z_j)+\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}} } q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \ln\,q_j(z_j)\,\mathrm{d}\boldsymbol{\mathrm{z}}+\int_{\boldsymbol{\mathrm{z}} }q_j(z_j)q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\int_{z_j}q_j(z_j)\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\int_{\boldsymbol{\mathrm{z}}_{-j} } q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\ln\,q_{-j}(\boldsymbol{\mathrm{z}}_{-j})\,\mathrm{d}\boldsymbol{\mathrm{z}}_{-j}\quad \text{（由式(14.76)）}\notag \\ & =\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j +\mathrm{const}\text{（与$z_j$无关的项）} \tag{14.79} \end{align}$
$\begin{align} & \quad \mathcal{L} (q)\notag \\ & =\int_{\boldsymbol{\mathrm{z}}}q(\boldsymbol{\mathrm{z}}) \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}}- \int_{\boldsymbol{\mathrm{z}} } q(\boldsymbol{\mathrm{z}}) \ln\,q(\boldsymbol{\mathrm{z}}) \,\mathrm{d}\boldsymbol{\mathrm{z}} \notag \\ & =\int_{z_j}q_j(z_j) \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \notag \\ & \quad \quad +\mathrm{const} \quad \text{（由式(14.77)、式(14.79)）}\notag \\ & =\int_{z_j}q_j(z_j) \left[ \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const}\right]\,\mathrm{d}z_j-\int_{z_j}q_j(z_j)\ln\,q_j(z_j)\,\mathrm{d}z_j \tag{14.80} \end{align}$
由 $\mathop{\mathbb{E}}$ 的消元作用知，式(14.80)中 $[\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \cdot]$ 为变元 $\boldsymbol{\mathrm{x}},z_j$ 的函数（消去了 $\boldsymbol{\mathrm{z}}_{-j}$ ），故可令
$\begin{align} \ln \tilde{p}(\boldsymbol{\mathrm{x}},z_j) = \left(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})\right)+\mathrm{const} \tag{14.81} \end{align}$
这里引入一个新的函数，函数符可以任意取，因它与 $p$ 有一定的关系，故对应 $\tilde{p}$ ，加 $\ln$ 是为了便于计算。

将式(14.81)代入式(14.80)有
$\begin{align} \mathcal{L} (q) & =\int_{z_j}q_j(z_j) (\ln\,\tilde{p}(\boldsymbol{\mathrm{x}},z_j)-\ln\,q_j(z_j))\,\mathrm{d}z_j \notag \\ & =\int_{z_j}q_j(z_j) \ln\,\frac{\tilde{p}(\boldsymbol{\mathrm{x}},z_j)}{\ln\,q_j(z_j)}\,\mathrm{d}z_j \notag \\ & =-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j)) \tag{14.82} \end{align}$

由式(14.82)
$\begin{align} q_j^*(z_j) & =\mathop{\arg\max}\limits_{q_j(z_j)}\mathcal{L} (q)\notag \\ & =\mathop{\arg\max}\limits_{q_j(z_j)}(-\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))+\mathrm{const})\notag \\ & =\mathop{\arg\min}\limits_{q_j(z_j)}\mathrm{KL}(q_j(z_j)||\tilde{p}(\boldsymbol{\mathrm{x}},z_j))\notag \\ & =\tilde{p}(\boldsymbol{\mathrm{x}},z_j)\quad \text{（由【西瓜书附录(C.35)】取最小点）}\notag \\ & =\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})+\mathrm{const})\quad \text{（由式(14.81)）}\notag \\ & \propto \mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \tag{14.83} \end{align}$
概率化
$\begin{align} q_j^*(z_j) & =\frac{\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}}))} {\int_{z_j}\mathrm{exp}(\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})) \,\mathrm{d}z_j } \tag{14.84} \end{align}$
式(14.84)【西瓜书式(14.40)】即为满足可分解条件下的使 $\mathcal{L} (q)$ 最大化的解。求出所有 $q_j^*(z_j)$ 代入式(14.72)即得要求的 $q(\boldsymbol{\mathrm{z}})$ 。

注意到式(14.84)的两边都含有 $q$ （右边是通过 $\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}}$ 隐式地包含 $q$ ），实际上可将等式(14.84)变为递推式来求解：左边的 $q$ 变为 $q^{t+1}$ ，右边的 $q$ 变为 $q^{t}$ ，
只要 $\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ 有关于 $p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ 的闭式解，即可用递推式方便地进行求解。

式(14.84)中为求 $q_j^*(z_j)$ ，却要通过 $\mathop{\mathbb{E}}\limits_{\boldsymbol{\mathrm{z}}_{-j}} \ln\,p(\boldsymbol{\mathrm{x}},\boldsymbol{\mathrm{z}})$ 融合 $\boldsymbol{\mathrm{z}}_{-j}$ ，因“期望”有“平均”的意思，故该方法亦称为“平均场”方法。