IWAE

最新推荐文章于 2025-04-28 01:33:48 发布

Ghy817920

最新推荐文章于 2025-04-28 01:33:48 发布

阅读量1.4k

点赞数 1

分类专栏：变分自动编码机

本文链接：https://blog.csdn.net/Ghy817920/article/details/96169641

版权

变分自动编码机专栏收录该内容

9 篇文章

订阅专栏

IMPORTANCE WEIGHTED AUTOENCODERS

这篇文章主要是提出一种更紧的 $E L B O$ $\mathcal{L}_{k}(\mathbf{x})=\mathbb{E}_{\mathbf{h}_{1}, \ldots, \mathbf{h}_{k} \sim q(\mathbf{h} | \mathbf{x})}\left[\log \frac{1}{k} \sum_{i=1}^{k} \frac{p\left(\mathbf{x}, \mathbf{h}_{i}\right)}{q\left(\mathbf{h}_{i} | \mathbf{x}\right)}\right]$ 其中 $w_{i}=p\left(\mathbf{x}, \mathbf{h}_{i}\right) / q\left(\mathbf{h}_{i} | \mathbf{x}\right)$ ，可以证明 $\mathcal{L}_{k}=\mathbb{E}\left[\log \frac{1}{k} \sum_{i=1}^{k} w_{i}\right] \leq \log \mathbb{E}\left[\frac{1}{k} \sum_{i=1}^{k} w_{i}\right]=\log p(\mathbf{x})$ 当 $k = 1$ 时，就等价为一般VAE的 $E L B O$ 。可以发现随着 $k$ 的增加， $E L B O$ 更紧 $\log p(\mathbf{x}) \geq \mathcal{L}_{k+1} \geq \mathcal{L}_{k}$ 这个同样是一个无偏估计。同样可以使用重参数，其梯度估计如下 $\begin{aligned} \nabla_{\boldsymbol{\theta}} \mathcal{L}_{k}(\mathbf{x})=\nabla_{\boldsymbol{\theta}} \mathbb{E}_{\mathbf{h}_{1}, \ldots, \mathbf{h}_{k}}\left[\log \frac{1}{k} \sum_{i=1}^{k} w_{i}\right] &=\nabla_{\boldsymbol{\theta}} \mathbb{E}_{\boldsymbol{\epsilon}_{1}, \ldots, \boldsymbol{\epsilon}_{k}}\left[\log \frac{1}{k} \sum_{i=1}^{k} w\left(\mathbf{x}, \mathbf{h}\left(\mathbf{x}, \boldsymbol{\epsilon}_{i}, \boldsymbol{\theta}\right), \boldsymbol{\theta}\right)\right] \\ &=\mathbb{E}_{\boldsymbol{\epsilon}_{1}, \ldots, \boldsymbol{\epsilon}_{k}}\left[\nabla_{\boldsymbol{\theta}} \log \frac{1}{k} \sum_{i=1}^{k} w\left(\mathbf{x}, \mathbf{h}\left(\mathbf{x}, \boldsymbol{\epsilon}_{i}, \boldsymbol{\theta}\right), \boldsymbol{\theta}\right)\right] \\ &=\mathbb{E}_{\boldsymbol{\epsilon}_{1}, \ldots, \boldsymbol{\epsilon}_{k}}\left[\sum_{i=1}^{k} \widetilde{w}_{i} \nabla_{\boldsymbol{\theta}} \log w\left(\mathbf{x}, \mathbf{h}\left(\mathbf{x}, \boldsymbol{\epsilon}_{i}, \boldsymbol{\theta}\right), \boldsymbol{\theta}\right)\right] \end{aligned}$ 其中 $\widetilde{w_{i}}=w_{i} / \sum_{i=1}^{k} w_{i}$ 。利用MC估计梯度 $\sum_{i=1}^{k} \widetilde{w_{i}} \nabla_{\boldsymbol{\theta}} \log w\left(\mathbf{x}, \mathbf{h}\left(\boldsymbol{\epsilon}_{i}, \mathbf{x}, \boldsymbol{\theta}\right), \boldsymbol{\theta}\right)$ IWAE采用的方法为REINFORCE-like，而不能像VAE那样对 $K L$ 部分进行解析分析。
在这篇文章中，引入了一个多层的隐藏变量，即为 $\begin{array}{c}{p(\mathbf{x} | \boldsymbol{\theta})=\sum_{\mathbf{z}^{1}, \ldots, \mathbf{z}^{L}} p\left(\mathbf{z}^{L} | \boldsymbol{\theta}\right) p\left(\mathbf{z}^{L-1} | \mathbf{z}^{L}, \boldsymbol{\theta}\right) \cdots p\left(\mathbf{x} | \mathbf{z}^{1}, \boldsymbol{\theta}\right)} \\ {q(\mathbf{z} | \mathbf{x})=q\left(\mathbf{z}^{1} | \mathbf{x}\right) q\left(\mathbf{z}^{2} | \mathbf{z}^{1}\right) \cdots q\left(\mathbf{z}^{L} | \mathbf{z}^{L-1}\right)}\end{array}$
在这里插入图片描述
这个模型在之后的Ladder-VAE会再次提到。