变分推断公式推导

最新推荐文章于 2024-04-18 10:34:21 发布

sonas_Guo

最新推荐文章于 2024-04-18 10:34:21 发布

阅读量5.2k

点赞数 4

分类专栏：数学证明文章标签：变分推断

本文链接：https://blog.csdn.net/guolinsen123/article/details/53241346

版权

数学证明专栏收录该内容

2 篇文章 0 订阅

订阅专栏

变分推断是通过已知简单分布近似逼近需要推断的复杂分布，从而求得局部最优的确定解的一种近似推断方法。
令 $x$ 为观测到的变量， $z$ 为 $x$ 所依赖的隐变量，
观测到的变量 $x$ 的概率密度函数为

p (x | Θ) = \prod i = 1 N \sum z p (x i, z | Θ)

$\begin{equation} p(x|\Theta)=\prod_{i=1}^N\sum_zp(x_i,z|\Theta) \end{equation}$
公式(1)所对应的对数似然函数为

ln p (x | Θ) = \sum 1 N l n {\sum z p (x i, z | Θ)}

$\begin{equation} \ln p(x|\Theta)=\sum_1^Nln\lbrace \sum_zp(x_i,z|\Theta)\rbrace \end{equation}$
其中，

Θ $\Theta$ 为参数向量。
当使用

EM $EM$ 算法来估计隐变量

z $z$ 和参数向量

Θ $\Theta$ 时，在

M $M$ 步，通过对

Q $\mathcal{Q}$ 函数取最大化来迭代求最优解，即

Θ t + 1 = a r g m a x Θ Q (Θ; Θ t) = a r g m a x Θ \sum z p (z | x, Θ t) ln p (x, z | Θ)

$\begin{equation} \begin{aligned} \Theta^{t+1}&=\mathop{argmax}\limits_{\Theta}\mathcal{Q}(\Theta;\Theta^t)\\\ &=\mathop{argmax}\limits_{\Theta}\sum_zp(z|x,\Theta^t)\ln p(x,z|\Theta) \end{aligned} \end{equation}$
公式(3)中，

Q(Θ;Θt) $Q(\Theta;\Theta^t)$ 为

lnp(x,z|Θ) $\ln p(x,z|\Theta)$ 在

p(z|x,Θt) $p(z|x,\Theta^t)$ 条件下的期望。
通常

p(z|x,Θt) $p(z|x,\Theta^t)$ 的真实分布很难求出，所以变分推断即是用简单的分布来代替所要求的复杂分布。
令

p $p$ 的近似分布为

q $q$ ,则

ln p = L (q) + K L (q | | p)

$\begin{equation} \ln p=\mathcal{L}(q)+KL(q||p) \end{equation}$
其中

L (q) = \int q (z) ln {p ( x , z ) q ( z )} d z

$\begin{equation} \mathcal{L}(q)=\int q(z)\ln \lbrace \frac{p(x,z)}{q(z)} \rbrace dz \end{equation}$

K L (q | | p) = - \int q (z) ln p ( z | x ) q ( z ) d z

$\begin{equation} KL(q||p)=-\int q(z)\ln \frac{p(z|x)}{q(z)}dz \end{equation}$
其中

L(q) $\mathcal{L}(q)$ 为函数

q $q$ 的对数似然，

KL(q||p) $KL(q||p)$ 为

p $p$ 与

q $q$ 的

KL $KL$ 散度，由式子可以看出

L(q) $\mathcal{L}(q)$ 即为

lnp $\ln p$ 的下界。
因为

p(z|x,Θt) $p(z|x,\Theta^t)$ 会很复杂，所以借助变分推断，假设

z $z$ 服从分布

q (z) = \prod i = 1 M q i (z i)

$\begin{equation} q(z)=\prod_{i=1}^Mq_i(z_i) \end{equation}$
即假设多变量

z $z$ 可以拆解为一系列相互独立的多变量

zi $z_i$ ，由于指数族具有良好的性质，在变分推断里通常将

qi $q_i$ 变换为指数函数，这个时候就有

L (q) = \int \prod i q i {ln p (x, z) - \sum i ln q i} d z

$\begin{equation} \mathcal{L}(q)=\int \prod \limits_i q_i\lbrace \ln p(x,z)-\sum \limits_i\ln q_i \rbrace dz \end{equation}$
将公式(8)的右侧整理成关于某一个多变量

zj $z_j$ 的函数，那么公式(8)可以写为

L (q) = \int q j {\int ln p (x, z) \prod i \neq j q i d z i} d z j - \int q j ln q j d z j + c o n s t = \int q j ln p ˜ (x, z j) d z j - \int q j ln q j d z j + c o n s t

$\begin{equation} \begin{aligned} \mathcal{L}(q)&=\int q_j \Bigg \lbrace \int \ln p(x,z)\prod \limits_{i\neq j}q_idz_i\Bigg \rbrace dz_j-\int q_j\ln q_jdz_j+const\\\ &=\int q_j\ln \widetilde p(x,z_j)dz_j-\int q_j\ln q_jdz_j+const \end{aligned} \end{equation}$
其中

ln p ˜ (x, z j) = \int ln p (x, z) \prod i \neq j q i d z i + c o n s t

$\begin{equation} \ln \widetilde p(x,z_j)=\int \ln p(x,z)\prod \limits_{i\neq j}q_idz_i+const \end{equation}$
因为公式(10)是关于

qj $q_j$ 的函数，我们固定

qi≠j $q_{i\neq j}$ 然后最大化

L(q) $\mathcal{L}(q)$ ，
可以看出，公式(9)等于

−KL(qj||p˜(x,zj)) $-KL(q_j||\widetilde p(x,z_j))$ ，所以当

qj=p˜(x,zj) $q_j=\widetilde p(x,z_j)$ 时，

L(q) $\mathcal{L}(q)$ 取最大，

lnqj(zj) $\ln q_j(z_j)$ 的最优解

lnq∗j(zj) $\ln q_j^*(z_j)$ 为

ln q * j (z j) = E i \neq j [ln p (x, z)] + c o n s t

$\begin{equation} \ln q_j^*(z_j)=\mathbb{E_{i\neq j}}[\ln p(x,z)]+const \end{equation}$
因为不知道

const $const$ 的具体值，所以可以通过归一化

q∗j(zj) $q_j^*(z_j)$ 即

q * j (z j) = e x p ( E i \neq j [ ln p ( x , z ) ] ) \int e x p ( E i \neq j [ ln p ( x , z ) ] ) d z j

$\begin{equation} q_j^*(z_j)=\frac{exp(\mathbb{E_{i\neq j}}[\ln p(x,z)])}{\int exp(\mathbb{E_{i\neq j}}[\ln p(x,z)])dz_j} \end{equation}$

sonas_Guo

关注

4
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
变分推断公式推导

变分推断是通过已知简单分布近似逼近需要推断的复杂分布，从而求得局部最优的确定解的一种近似推断方法。令xx为观测到的变量，zz为xx所依赖的隐变量，观测到的变量xx的概率密度函数为 p(x|Θ)=∏i=1N∑zp(xi,z|Θ)\begin{equation}p(x|\Theta)=\prod_{i=1}^N\sum_zp(x_i,z|\Theta)\end{equation} 公
复制链接

扫一扫