条件变分自编码器（CVAE）及相关论文ELBO推导

最新推荐文章于 2025-04-28 01:27:09 发布

风吹草地现牛羊的马

最新推荐文章于 2025-04-28 01:27:09 发布

阅读量1.3w

点赞数 19

分类专栏：机器学习 NLP 变分贝叶斯系列

本文链接：https://blog.csdn.net/mch2869253130/article/details/105229613

版权

机器学习同时被 3 个专栏收录

97 篇文章

订阅专栏

NLP

42 篇文章

订阅专栏

变分贝叶斯系列

22 篇文章

订阅专栏

本文深入探讨了条件变分自编码器(CVAE)的工作原理，通过数学推导展示了CVAE如何利用附加条件生成更多样化的数据。文章详细解析了两篇关于CVAE的论文，阐述了其在网络结构、概率分布和神经网络拟合方面的关键点。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

推导用到的概率公式：

$P (A, B ∣ C) = P (A ∣ B, C) P (B ∣ C)$
证明：
由于 $\over P(B)}$ ，所以 $\over P(C)}$ 。
$P (A, B, C) = P (A ∣ B, C) P (B ∣ C) P (C)$ ，所以 $P (A, B ∣ C) = P (A ∣ B, C) P (B ∣ C)$

VAE的缺点

VAE是一种无监督模型，只能生成与输入类似的数据，有研究者提出能够生成不同的数据，比如，输入一张黄皮肤人脸，可以生成类似的白皮肤人脸或者黑皮肤人脸，这种情况下VAE就做不到了，故有研究人员提出了CVAE，这个C就是附加的条件，可以利用附加的条件生成更有多样性的数据。

CVAE

CVAE是一个系列，CVAE的模型不止一个，其他模型以后再慢慢补充。CVAE的推导方法与VAE的类似，不了解VAE的可以看我之前的博客变分自编码器（VAE）

CVAE的模型图如下图所示：
在这里插入图片描述
在下面的推导中， $c$ 是附加信息， $x$ 是输入数据， $z$ 是隐变量，
$\begin{aligned} \tag{1}logp_{\theta}(x|c) = & log\int_{z}p_{\theta}(x, z|c)dz \\ = & log\int_{z}{q_{\varphi}(z|x,c)p_{\theta}(x,z|c) \over q_{\varphi}(z|x,c)}dz \\ = & log E_{q_{\varphi}(z|x,c)}[{p_{\theta}(x,z|c) \over q_{\varphi}(z|x,c)}] \\ \ge & E_{q_{\varphi}(z|x,c)}[log{p_{\theta}(x,z|c) \over q_{\varphi}(z|x,c)}] \\ \end{aligned}$
$\begin{aligned} \tag{2}ELBO = & E_{q_{\varphi}(z|x,c)}[log{p_{\theta}(x,z|c) \over q_{\varphi}(z|x,c)}] \\ = & E_{q_{\varphi}(z|x,c)}[log{p_{\theta}(x|z,c)p_{\theta}(z|c) \over q_{\varphi}(z|x,c)}] \\ = & E_{q_{\varphi}(z|x,c)}[logp_{\theta}(x|z,c)] - KL[q_{\varphi}(z|x,c)||p_{\theta}(z|c)] \end{aligned}$
在（2）式中， $p_{\theta}(z|c)是z的先验,q_{\varphi}(z|x,c)是z的后验$ 。
相应的网络结构如下图所示：
在这里插入图片描述

与CVAE相关的论文：

[1]Modeling Event Background for If-Then Commonsense Reasoning Using Context-awareVariational Autoencoder.
[2]Learning Discourse-level Diversity for Neural Dialog Models using Conditional Variational Autoencoders.
[3]Learning Structured Output Representation using Deep Conditional Generative Models.

论文中的 $E L B O$ 推导：

[1]中的 $E L B O$ 推导：
用到的概率公式：
$P (A, B, C ∣ D) = P (A ∣ B, C, D) P (B, C ∣ D) = P (A ∣ B, C, D) P (B ∣ C, D) P (C ∣ D)$
在这里插入图片描述
概率图模型如上图所示，虚线是推理网络，实线是生成网络， $x 是$ base event(输入数据)， $y 是$ target(输出数据)， $z_{c^{'}}和z_c$ 是隐变量，分别表示event的背景信息和inference dimensions.
$\begin{aligned} logp_{\theta}(y|x) = & log \iint p_{\theta}(y, z, z_{c^{'}}|x)dzdz_{c^{'}} \\ = & log \iint { p_{\theta}(y, z, z_{c^{'}}|x)q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}dzdz_{c^{'}} \\ = & logE_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[{p_{\theta}(y, z, z_{c^{'}}|x) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}] \\ \ge & E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(y, z, z_{c^{'}}|x) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}] \\ ELBO = & E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(y, z, z_{c^{'}}|x) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}] \\ = & E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(y |z, z_{c^{'}}x)p_{\theta}(z|z_{c^{'}},x)p_{\theta}(z_{c^{'}}|x) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}] \\ = & E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(y |z, z_{c^{'}}x)]} +E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(z|z_{c^{'}},x)p_{\theta}(z_{c^{'}}|x) \over q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}] \\ =&E_{q_{\varphi}(z|x,z_{c^{'}}, y)q_{\varphi}(z_{c^{'}}|x,y)}[log{p_{\theta}(y |z, z_{c^{'}}x)]} \\ & - \int_z q_{\varphi}(z|x,z_{c^{'}},y)KL[q_{\varphi}(z_{c^{'}}|x,y)||p_{\theta}(z_{c^{'}}|x)]dz \\ & - \int_{z_{c^{'}}}q_{\varphi}(z_{c^{'}}|x,y)KL[q_{\varphi}(z|x, z_{c^{'}},y)||p_{\theta}(z|z_{c^{'}},x)]dz_{c^{'}} \end{aligned}$
第一项是重构误差，也就是生成网络，包括 $p_{\theta}(y|z,z_{c^{'}},x)，用神经网络来拟合$ ，
后面两项是KL项，也就是编码网络，包括 $两个先验网络p_{\theta}(z_{c^{'}}|x)和p_{\theta}(z|z_{c^{'}},x)，两个识别网络q_{\varphi}(z|x,z_{c^{'}},y)和q_{\varphi}(z_{c^{'}}|x,y)$ ，因此总共有5个神经网络来拟合上面提到的概率分布。两个识别网络是用来近似真实的后验分布 $p_{\theta}(z|x,z_{c^{'}},y)和p_{\theta}(z_{c^{'}}|x,y)$ 的，所以VAE和CVAE都是近似推断而不是精确推断，。
注：上面的推导结果和分析与论文中有差异。

[2]中的 $E L B O$ 推导：
用到的概率公式：
$P (A, B, C ∣ D) = P (A ∣ B, C, D) P (B, C ∣ D) = P (A ∣ B, C, D) P (B ∣ C, D) P (C ∣ D)$
在这里插入图片描述
概率图模型如上图所示，虚线是推理网络，实线是生成网络， $x$ 是对话中的第 $k$ 条语句， $c$ 是前 $k - 1$ 条语句，也就是上下文， $y$ 是语言的一些特征，比如整个对话表达的动作行为， $z$ 是隐变量。
$\begin{aligned} logp_{\theta}(x|c) = & log\iint p_{\theta}(x,z,y|c)dzdy \\ = & log \iint{p_{\theta}(x,z,y|c)q_{\varphi}(z|c,x,y) \over q_{\varphi}(z|c,x,y)}dzdy \\ = & logE_{q_{\varphi}(z|c,x,y)}[{p_{\theta}(x,z,y|c)\over q_{\varphi}(z|c,x,y)}] \\ \ge & E_{q_{\varphi}(z|c,x,y)}[log{p_{\theta}(x,z,y|c)\over q_{\varphi}(z|c,x,y)}] \\ ELBO = & E_{q_{\varphi}(z|c,x,y)}[log{p_{\theta}(x,z,y|c)\over q_{\varphi}(z|c,x,y)}] \\ = & E_{q_{\varphi}(z|c,x,y)}[log{p_{\theta}(x|c,z,y)p_{\theta}(y|c,z)p_{\theta}(z|c)\over q_{\varphi}(z|c,x,y)}] \\ = & E_{q_{\varphi}(z|c,x,y)}[logp_{\theta}(x|c,z,y)] \\ &+ E_{q_{\varphi}(z|c,x,y)}[logp_{\theta}(y|c,z)] \\ & - KL[q_{\varphi}(z|c,x,y)||p_{\theta}(z|c)] \end{aligned}$
前两项是重构误差，也就是生成网络，包括 $logp_{\theta}(x|c,z,y)$ 和 $logp_{\theta}(y|c,z)$ ，分别用来生成 $x 和 y$ ,第三项是KL项，也就是编码网络，包括先验网络 $p_{\theta}(z|c)$ 和后验网络 $q_{\varphi}(z|c,x,y)$ ,总共有4个网络来拟合上面的概率分布。