beta-VAE

最新推荐文章于 2024-08-18 10:13:56 发布

Ghy817920

最新推荐文章于 2024-08-18 10:13:56 发布

阅读量5.8k

点赞数 3

分类专栏：变分自动编码机

本文链接：https://blog.csdn.net/Ghy817920/article/details/95969906

版权

变分自动编码机专栏收录该内容

9 篇文章 0 订阅

订阅专栏

beta-VAE: Learning Basic Visual Concepts with a Constrained Variational Framework

$\beta-VAE$ 的目标是学习独立的特征，让某种特征对应某个生成因素，而独立于其他因素。For example,a model trained on photos of human faces might capture the gentle, skincolor, hair color, hair length, emotion, whether wearing a pair of glasses andmany other relatively independent factors in separate dimensions. Such a disentangled representation is very beneficial to facial image generation.
数据集 $\mathcal{D}=\{X, V, W\}$ ，其中 $\mathbf{x} \in \mathbb{R}^{N}$ 代表图片，而 $\mathbf{v} \in \mathbb{R}^{K}$ 为条件独立的隐变量，即 $\log p(\mathbf{v} | \mathbf{x})=\sum_{k} \log p\left(v_{k} | \mathbf{x}\right)$ ，还有条件依赖的隐变量 $\mathbf{w} \in \mathbb{R}^{H}$ 。那么图片由着两个隐变量共同生成，则 $p(\mathbf{x} | \mathbf{v}, \mathbf{w})=\operatorname{Sim}(\mathbf{v}, \mathbf{w})$ 。
我们现在希望通过一种无监督的方法，仅仅利用数据 $X$ 就能得到 $\mathbf x$ 和 $\mathbf z$ 的联合分布，其中 $\mathbf{z} \in \mathbb{R}^{M}$ ， $\geq K$ 。也就是说有 $p(\mathbf{x} | \mathbf{z}) \approx p(\mathbf{x} | \mathbf{v}, \mathbf{w})=\operatorname{Sim}(\mathbf{v}, \mathbf{w})$ 。那么目标函数为 $\max _{\theta} \mathbb{E}_{p_{\theta}(\mathbf{z})}\left[p_{\theta}(\mathbf{x} | \mathbf{z})\right]$ 与VAE一样，引入一个inferred后验分布 $q_{\phi}(\mathbf{z} | \mathbf{x})$ ，我们的目标是 $q_{\phi}(\mathbf{z} | \mathbf{x})$ 能够以解耦的方式将 $\mathbf v$ 解耦出。为了能够达到目的，我们可以让这个后验接近 $p(\mathbf z)$ ，这样既能限制隐变量的信息瓶颈，又能达到之前说的解耦的效果，且 $p(\mathbf{z})=\mathcal{N}(0, I)$ 。则目标函数为 $\max _{\phi, \theta} \mathbb{E}_{x \sim \mathbf{D}}\left[\mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]\right] \quad \text { subject to } D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)<\epsilon$ 求解上式，利用拉格朗日KKT条件 $\mathcal{F}(\theta, \phi, \beta ; \mathbf{x}, \mathbf{z})=\mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]-\beta\left(D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)-\epsilon\right)$ 又因为 $\beta, \epsilon \geq 0$ ，则 $\mathcal{F}(\theta, \phi, \beta ; \mathbf{x}, \mathbf{z}) \geq \mathcal{L}(\theta, \phi ; \mathbf{x}, \mathbf{z}, \beta)=\mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]-\beta D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)$ 可以发现与vanilla-VAE的唯一区别就是在KL项引入了。Therefore a higher $\beta$ encourages more efficient latent encoding and further encouragesthe disentanglement. Meanwhile, a higher $\beta$ may create a trade-off between reconstruction quality and the extent of disentanglement.

Understanding disentangling in $\beta$ -VAE

从信息瓶颈的角度看 $\beta-VAE$ 。首先先科普下什么是information bottlenec。假设我们面对分类任务，标注数据对是 $\left(x_{1}, y_{1}\right), \ldots,\left(x_{N}, y_{N}\right)$ 。我们把这个任务分为两步来理解，第一步是编码，第二步就是分类。第一步是把 $x$ 编码为一个隐变量 $z$ ，然后分类器把 $z$ 识别为类别 $y$ 。
我们试想在 $z$ 处加一个“瓶颈” $\beta$ ，它像一个沙漏，进入的信息量可能有很多，但是出口就只有 $\beta$ 那么大，所以这个瓶颈的作用是：不允许流过 $z$ 的信息量多于 $\beta$ 。跟沙漏不同的是，沙漏的沙过了瓶颈就完事了，而信息过了信息瓶颈后，还需要完成它要完成的任务（分类、回归等），所以模型迫不得已，只好想办法让最重要的信息通过瓶颈。这就是信息瓶颈的原理！
那么衡量信息量大小的式子刚好有互信息 $\boldsymbol{\theta})=\int d z d y p(z, y | \boldsymbol{\theta}) \log \frac{p(z, y | \boldsymbol{\theta})}{p(z | \boldsymbol{\theta}) p(y | \boldsymbol{\theta})}$ 显然上式最大的时候刚好为 $Z = Y$ 时，这样我们的学习就没有意义了。因此可以考虑对上式加上一定的约束 $\max _{\boldsymbol{\theta}} I(Z, Y ; \boldsymbol{\theta}) \text { s.t. } \quad I(X, Z ; \boldsymbol{\theta}) \leq I_{c}$ 让 $X, Z$ 的互信息约束在一个范围中，这样就是相当于一个瓶颈，提取十分必要的信息，而略去一些没有意义的信息！求解上式同样适用拉格朗日乘子，最后得到 $R_{I B}(\boldsymbol{\theta})=I(Z, Y ; \boldsymbol{\theta})-\beta I(Z, X ; \boldsymbol{\theta})$ Intuitively, the first term in RIB encourages Z to be predictive of Y ; thesecond term encourages Z to“forget”X. Essentially it forces Z to act likea minimal sufficient statistic of X for predicting Y .
那么 $\beta-VAE$ 就能用信息瓶颈的理论解释了。首先第一部分为一个重建问题 $\max E_{q(\mathbf{z} | \mathbf{x})}[\log p(\mathbf{x} | \mathbf{z})]$ 使得上式最大时，就是在隐含着互信息 $\boldsymbol{\theta})$ 变大，其中 $Y = X$ 。只有 $X, Z$ 的相关程度很高的时候，重建才能很好！更加极端的情况就是AE自动编码机， $Z = e n c o d e r (X)$ 为一个决定性关系，此时重构可以做到很高的精度，而且 $X, Z$ 的互信息也很大！
而 $K L$ 部分 $D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)$ ，在IB理论中是减少 $X, Z$ 的互信息，当我们减少 $K L$ 散度时，则有 $q_{\phi}(\mathbf{z} | \mathbf{x}) \rightarrow p(\mathbf z)$ ，那就是说明 $X, Z$ 就是独立了，从而互信息也就为0了。那么 $K L$ 部分越大，说明该维度的隐变量含有的信息量就越大。
$\beta-VAE$ 虽然能够学习到很好的特征，但是其重建能力真的很差，如下图所示。
在这里插入图片描述
本文发现逐渐增大信息瓶颈可以让重建能力上升，且能够学习到很棒的特征。因此提出了如下的目标函数： $\mathcal{L}(\theta, \phi ; \mathbf{x}, \mathbf{z}, C)=\mathbb{E}_{q_{\phi}(\mathbf{z} | \mathbf{x})}\left[\log p_{\theta}(\mathbf{x} | \mathbf{z})\right]-\gamma\left|D_{K L}\left(q_{\phi}(\mathbf{z} | \mathbf{x}) \| p(\mathbf{z})\right)-C\right|$ 其中 $C$ 为一个逐渐增大的数字，一般 $\gamma$ 取一个很大的数字，保证 $K L$ 部分能满足 $C$ 。
在这里插入图片描述