变分自编码器和条件变分自编码器 (VAE & CVAE)

最新推荐文章于 2024-07-25 12:32:58 发布

龙行天下258079

最新推荐文章于 2024-07-25 12:32:58 发布

阅读量3.7k

点赞数 11

文章标签：概率论机器学习

本文链接：https://blog.csdn.net/qq_25602729/article/details/119980336

版权

变分自编码器(VAE)

变分自编码器(VAE)是通过大量的观测数据 $\mathbf{x}_{i}$ 总结出数据的分布 $p(\mathbf{X})$ ，进而可以通过无穷次的采样获取所有的数据 $\mathbf{X}$ ，包含观测到的 $\mathbf{x}_{i}$ 以及未观测到的 $\mathbf{x}_{j}$ ，这是个生成式模型， $\mathbf{x}_{j}$ 就是生成结果。

然而分布 $p(\mathbf{X})$ 是不存在解析解的，我们构造一个参数化的分布 $p_{\theta}(\mathbf{X})$ 来逼近 $p(\mathbf{X})$ ，而优化这些参数的方法便是最大似然估计，即 $\theta^{*}=\operatorname{argmin}_{\theta}(-\log(p_{\theta}(\mathbf{X})))$ 。

VAE受启发于自编码器，自编码器先将数据 $\mathbf{x}_{i}$ 映射到一个低维的隐空间 $\mathbf{z}_{i}$ , 再利用该隐变量恢复 $\mathbf{x}_{i}$ ，其目的是可以用低维的隐变量 $\mathbf{z}_{i}$ 来准确表示高维输入数据 $\mathbf{x}_{i}$ ，这样一来能够对 $\mathbf{x}_{i}$ 进行有效的数据压缩，用最本质的数据 $\mathbf{z}_{i}$ 来表示 $\mathbf{x}_{i}$ ，剔除了大量与 $\mathbf{x}_{i}$ 的本质无关的表示数据。

自编码器需要施加输入和输出相等的约束，VAE虽然架构上和自编码器相同，但是VAE不需要输入和输出相等，其追求的反而是输入和输出不相同，但是输入和输出的本质属性是相同的，不同的是附加在本质属性上的其他表现形式，也就是输入观测数据 $\mathbf{x}_{i}$ ，VAE提取出其本质属性表示 $\mathbf{z}$ （这里没有加下标 $i$ 是因为多个 $\mathbf{x}_{i}$ 的本质表示可能是相同的），然后基于本质表示 $\mathbf{z}$ 附加一些额外的表示生成新的未观测过的数据 $\mathbf{x}_{j}$ ， $\mathbf{x}_{j}$ 和 $\mathbf{x}_{i}$ 在本质上是相同的。

为了方便理解，可以举一个简单的例子， $\mathbf{x}_{i}$ 可以是”灰色的猫“，那么其本质属性表示 $\mathbf{z}$ 就是”猫“，包含猫特有的属性(比如体态，眼睛，嘴巴，胡须等)，但是对于颜色的属性（灰色）， $\mathbf{z}$ 将其滤除了，因为灰色并不是猫的本质属性，接下来VAE可以基于本质属性表示 $\mathbf{z}$ 附加一些额外的属性生成新的未观测数据 $\mathbf{x}_{j}$ — ”橘色的猫“，甚至也可以是”灰色的折耳猫“，这样 $\mathbf{x}_{j}$ 和 $\mathbf{x}_{i}$ 是不相等的，但是其本质上是相同的。

基于隐变量 $\mathbf{z}$ ，来估计 $\mathbf{X}$ 的分布的方法是 $p_{\theta}(\mathbf{X})=\int p_{\theta}(\mathbf{X}\mid\mathbf{z})p_{\theta}(\mathbf{z}) \mathrm{d} \mathbf{z}$ ，设定 $p_{\theta}(\mathbf{z})\sim\mathcal{N}(\mathbf{0}, \mathbf{I})$ ，由于 $\mathbf{z}$ 是通过压缩 $\mathbf{X}$ 得到的，所以用 $p_{\theta}(\mathbf{z}\mid\mathbf{X})$ 来代替 $p_{\theta}(\mathbf{z})$ ，VAE的初步框架如下图所示：

（本博客所有的图片来自于 https://zhuanlan.zhihu.com/p/348498294）

但是 $p_{\theta}(\mathbf{z}\mid\mathbf{X})$ 是不好求的，因为：
$\begin{aligned} p_{\theta}\left(\mathbf{z} \mid \mathbf{x}_{i}\right) &=\frac{p_{\theta}\left(\mathbf{x}_{i} \mid \mathbf{z}\right) p(\mathbf{z})}{p_{\theta}\left(\mathbf{x}_{i}\right)} \\ &=\frac{p_{\theta}\left(\mathbf{x}_{i} \mid \mathbf{z}\right) p(\mathbf{z})}{\int_{\hat{\mathbf{z}}} p_{\theta}\left(\mathbf{x}_{i} \mid \hat{\mathbf{z}}\right) p(\hat{\mathbf{z}}) d \hat{\mathbf{z}}} \end{aligned} \tag{1}$ 分子好求，但是分母需要对 $\mathbf{z}$ 进行大量的采样，这是不可行的，这里就引入了变分推理的方法，这就是为什么VAE叫变分自编码器了，引入 $q_{\phi}\left(\mathbf{z} \mid \mathbf{X}\right)$ 来近似 $p_{\theta}(\mathbf{z}\mid\mathbf{X})$ ，所以VAE的框架变成了下图：

接下来就是推导损失函数，还是基于最大似然估计，计算使得 $\log p_{\theta}(\mathbf{X})$ 最大的 $\theta$ 。
$\begin{aligned} \log p_{\theta}(\mathbf{X}) &=1 \cdot \log p_{\theta}(\mathbf{X}) \\ &=\left(\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) d \mathbf{z}\right) \cdot \log p_{\theta}(\mathbf{X}) \\ &=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log p_{\theta}(\mathbf{X}) d \mathbf{z} \quad \log p_{\theta}(\mathbf{X}) 与 \mathbf{z} \text { 无关 } \\ &=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{p_{\theta}(\mathbf{X}, \mathbf{z})}{p_{\theta}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z} ~~~~~~ 贝叶斯定理 \\ &=\int_{\mathbf{z}} q_{\dot{\phi}}(z \mid \mathbf{X}) \log \left(\frac{p_{\theta}(\mathbf{X}, z)}{q_{\phi}(z \mid \mathbf{X})} \cdot \frac{q_{\phi}(\mathbf{z} \mid \mathbf{X})}{p_{\theta}(\mathbf{z} \mid \mathbf{X})}\right) d \mathbf{z} \\ &=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{p_{\theta}(\mathbf{X}, \mathbf{z})}{q_{\phi}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z}+\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{q_{\phi}(\mathbf{z} \mid \mathbf{X})}{p_{\theta}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z} \\ &=\ell\left(p_{\theta}, q_{\phi}\right)+D_{K L}\left(q_{\phi}, p_{\theta}\right) \geq \ell\left(p_{\theta}, q_{\phi}\right) \quad K L 散度非负. \end{aligned} \tag{2}$ 将上式重新表示为：
$\ell\left(p_{\theta}, q_{\phi}\right)=\log p_{\theta}(\mathbf{X})-D_{K L}\left(q_{\phi}, p_{\theta}\right) \tag{3}$ 则最大化 $\ell\left(p_{\theta}, q_{\phi}\right)$ 就相当于最大化 $\log p_{\theta}(\mathbf{X})$ 和最小化 $D_{K L}\left(q_{\phi}, p_{\theta}\right)$ ，所以优化目标也就变成了最大化 $\ell\left(p_{\theta}, q_{\phi}\right)$ ， $\ell\left(p_{\theta}, q_{\phi}\right)$ 在变分推理中也叫 ELBO (Empirical Lower Bound)。进一步：
$\begin{aligned} \ell\left(p_{\theta}, q_{\phi}\right)&=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{p_{\theta}(\mathbf{X}, \mathbf{z})}{q_{\phi}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z}\\ &=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{p_{\theta}(\mathbf{X} \mid \mathbf{z}) p(\mathbf{z})}{q_{\phi}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z} \quad \text { 贝叶斯定理 }\\ &=\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log \frac{p(\mathbf{z})}{q_{\phi}(\mathbf{z} \mid \mathbf{X})} d \mathbf{z}+\int_{\mathbf{z}} q_{\phi}(\mathbf{z} \mid \mathbf{X}) \log p_{\theta}(\mathbf{X} \mid \mathbf{z}) d \mathbf{z} \\ &=-D_{K L}\left(q_{\phi}, p\right)+\mathbb{E}_{q_{\phi}}\left[\log p_{\theta}(\mathbf{X} \mid \mathbf{z})\right] \end{aligned} \tag{4}$

条件变分自编码器(CVAE)

在条件变分自编码器（CVAE）中，模型的输出就不是 $\mathbf{x}_j$ 了，而是对应于输入 $\mathbf{x}_i$ 的任务相关数据 $\mathbf{y}_i$ ，例如分类任务就是长度为类别数的向量，所以损失函数得需重新推一遍，不过套路和VAE是一样的，这次的最大似然估计变成了 $\log p_{\theta}(\mathbf{Y}\mid\mathbf{X})$ ，即：
$\begin{aligned} \log p_{\theta}(\mathbf{Y}\mid\mathbf{X})&=1\cdot\log p_{\theta}(\mathbf{Y}\mid\mathbf{X})\\ &=\left(\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\mathrm{d}\mathbf{z}\right)\log p_{\theta}(\mathbf{Y}\mid\mathbf{X}) \\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log p_{\theta}(\mathbf{Y}\mid\mathbf{X})\mathrm{d}\mathbf{z}\\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{p_{\theta}(\mathbf{z}, \mathbf{X}, \mathbf{Y})}{p_{\theta}(\mathbf{z}\mid\mathbf{X},\mathbf{Y})p_{\theta}(\mathbf{X})}\mathrm{d}\mathbf{z}\\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})}{p_{\theta}(\mathbf{z}\mid\mathbf{X},\mathbf{Y})}\frac{p_{\theta}(\mathbf{z}, \mathbf{X}, \mathbf{Y})}{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})p_{\theta}(\mathbf{X})}\mathrm{d}\mathbf{z}\\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})}{p_{\theta}(\mathbf{z}\mid\mathbf{X},\mathbf{Y})}\mathrm{d}\mathbf{z}~+~\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{p_{\theta}(\mathbf{z}, \mathbf{X}, \mathbf{Y})}{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})p_{\theta}(\mathbf{X})}\mathrm{d}\mathbf{z}\\ &=D_{K L}(q_{\phi}, p_{\theta}) ~+~ \ell(p_{\theta}, q_{\phi}) \tag{5} \end{aligned}$ 则 ELBO 为 $\ell(p_{\theta}, q_{\phi})$ ，进一步：
$\begin{aligned} \ell(p_{\theta}, q_{\phi})&=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{p_{\theta}(\mathbf{z}, \mathbf{X}, \mathbf{Y})}{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})p_{\theta}(\mathbf{X})}\mathrm{d}\mathbf{z}\\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{p_{\theta}(\mathbf{Y}\mid\mathbf{X},\mathbf{Z})p_{\theta}(\mathbf{Z}\mid\mathbf{X})p_{\theta}(\mathbf{X})}{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})p_{\theta}(\mathbf{X})}\mathrm{d}\mathbf{z}\\ &=\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log\frac{p_{\theta}(\mathbf{Z}\mid\mathbf{X})}{q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})}\mathrm{d}\mathbf{z}~+~\int_{\mathbf{z}}q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\log p_{\theta}(\mathbf{Y}\mid\mathbf{X,\mathbf{Z}})\mathrm{d}\mathbf{z}\\ &=-D_{K L}(q_{\phi}(\mathbf{z}\mid\mathbf{X}, \mathbf{Y})\mid p_{\theta}(\mathbf{Z}\mid\mathbf{X}))~+~\mathbb{E}_{q_{\phi}}[\log p_{\theta}(\mathbf{Y}\mid\mathbf{X},\mathbf{Z})] \tag{6} \end{aligned}$
网络结构包含三个部分：

先验网络 $p_{\theta}(\mathbf{z}\mid\mathbf{X})$ ，如下图（b）所示
Recognition网络 $q_{\phi}(\mathbf{z}\mid\mathbf{X},\mathbf{Y})$ ，如下图（c）所示
Decoder网络 $p_{\theta}(\mathbf{Y}\mid\mathbf{X},\mathbf{Z})$ ，如下图（b）所示。

龙行天下258079

关注

11
点赞
踩
41

收藏

觉得还不错? 一键收藏
0
评论
变分自编码器和条件变分自编码器 (VAE & CVAE)

变分自编码器(VAE)变分自编码器(VAE)是通过大量的观测数据 xi\mathbf{x}_{i}xi 总结出数据的分布 p(X)p(\mathbf{X})p(X)，进而可以通过无穷次的采样获取所有的数据 X\mathbf{X}X，包含观测到的 xi\mathbf{x}_{i}xi 以及未观测到的 xj\mathbf{x}_{j}xj，这是个生成式模型，xj\mathbf{x}_{j}xj 就是生成结果。然而分布 p(X)p(\mathbf{X})p(X) 是不存在解析解的，我们构造一个参数化的
复制链接

扫一扫