f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization

最新推荐文章于 2024-04-21 12:53:10 发布

NoTime4Emotion

最新推荐文章于 2024-04-21 12:53:10 发布

阅读量731

点赞数

分类专栏： Methodology 文章标签：深度学习机器学习

本文链接：https://blog.csdn.net/qq_42192910/article/details/104487200

版权

Methodology 专栏收录该内容

10 篇文章 0 订阅

订阅专栏

$f$ -GAN: Training Generative Neural Samplers using Variational Divergence Minimization

Paper:http://papers.nips.cc/paper/6066-f-gan-training-generative-neural-samplers-using-variational-divergence-minimization.pdf
Tips：Nips2016的一篇paper，主要研究GAN的object function的问题。
（阅读笔记）

1.Main idea

提出问题：GAN的效果很好能够生成一个与目标相似的分布，但是却无法计算出某个事件的似然或者边缘似然。but cannot be used for computing likelihoods or for marginalization.
GAN做生成只是一个特例。We show that the generative-adversarial approach is a special case of an existing more general variational divergence estimation approach.
任意的目标函数（散度）都能用于GAN的训练。We show that any $f$ - $d i v e r g e n c e$ can be used for training generative neural samplers.

2.Intro

当有了生成模型 $Q$ 后，一般用于：
- 抽样：从模型 $Q$ 中抽样，可以得到重要的信息，如：做决策。
- 估计：从 $P$ 中得到独立同分布的样本 ${x_1,x_2,...,x_n\}$ ，然后可以找到 $Q$ 相似于 $P$ 分布。
- 似然估计：给定 $x$ ，估计是分布 $Q$ 的概率。
原始GAN是 $\mathbf{JS}$ 散度（Details中详述），如下所示：
$\begin{aligned} D_{\mathbf{JS}}(P\|Q)=\frac{1}{2}D_{\mathbf{KL}}(P\| \frac{1}{2}(P+Q))+\frac{1}{2}D_{\mathbf{KL}}(Q\| \frac{1}{2}(P+Q)) \tag{1} \end{aligned}$

3.Details

$f$ - $d i v e r g e n c e$ 用于衡量两个分布 $P$ 和 $Q$ 之间得差距的。其中 $f(\cdot)$ 要求：是下凸函数且 $f (1) = 0$ ，所以不同的 $f(\cdot)$ 也就用不同的距离散度形式：
$\begin{aligned} D_f(P\|Q)=\int_{\mathcal{X}}q(x)f(\frac{p(x)}{q(x)})\mathrm{d}x \tag{2} \end{aligned}$
其实很明显地，当 $p (x)$ 和 $q (x)$ 相等时， $f(\cdot)=0$ ，即 $D_f(P\|Q)=0$ ，之间距离就为0；又 $f(\cdot)$ 是下凸函数，也就是 $f(\frac{x_1+x_2+,,,+x_n}{n})\leq\frac{f(x_1)+f(x_2)+...+f(x_n)}{n}\rightarrow f(\mathbb{E}(x)) \leq \mathbb{E} (f(x))$ ，于是：
$\begin{aligned} \mathbb{E} (f(x)) \geq f(\mathbb{E}(x)) \rightarrow \int_{\mathcal{X}}q(x)f(x)\mathrm{d}x & \geq f(\int_{\mathcal{X}}q(x)x\mathrm{d}x) \\ \rightarrow \int_{\mathcal{X}}q(x)f(\frac{p(x)}{q(x)})\mathrm{d}x & \geq f(\int_{\mathcal{X}}q(x)\frac{p(x)}{q(x)}\mathrm{d}x) \\ &= f(\int_{\mathcal{X}}p(x)\mathrm{d}x) \\ &=f(1) \\ &=0 \tag{3} \end{aligned}$
$D_f(P\|Q)$ 有下界且是其最小值0，即可用于衡量距离。
$f$ - $d i v e r g e n c e$ 中的函数 $f(\cdot)$ 有一共轭函数 $f^{*}(\cdot)$ ；在当前自变量 $t$ 值的时候，取到 $f(\cdot)$ 定义域内所有 $u$ ，使得 $\{\cdot\}$ 中值最大的情况就是函数 $f^*(t)$ 的值，如下式所示：
$\begin{aligned} f^*(t)=\sup_{u \in \mathrm{dom}_f} \{ut-f(u)\} \tag{4} \end{aligned}$
$f$ 与 $f^*$ 可以互相转换，即 $f(u)=\sup_{t \in \mathrm{dom}_{f^{*}}} \{tu-f^*(t)\}$ ，所以有：
$\begin{aligned} D_f(P\|Q)&=\int_{\mathcal{X}}q(x)f(\frac{p(x)}{q(x)})\mathrm{d}x \\ &= \int_{\mathcal{X}} q(x) \sup_{t \in \mathrm{dom}_{f^{*}}} \{t\frac{p(x)}{q(x)}-f^*(t)\} \mathrm{d}x \\ & \geq \int_{\mathcal{X}} q(x) \times (T(x)\frac{p(x)}{q(x)}-f^*(T(x)))\mathrm{d}x \\ &= \int_{\mathcal{X}} T(x)p(x)-q(x)f^*(T(x))\mathrm{d}x \\ &= \int_{\mathcal{X}} T(x)p(x)\mathrm{d}x-\int_{\mathcal{X}}q(x)f^*(T(x))\mathrm{d}x \\ \tag{5} \end{aligned}$
由上式有，因为 $D_f(P\|Q)$ 要求取到所有的 $t$ 得到的函数最大值才是最终的结果，直接替换成另一函数 $T (x)$ 必然是更小的，即使 $T (x)$ 是从某一函数集 $\mathcal{T}$ 得到的最大的函数，所以找到一个很好的最大的 $T (x)$ 就可以去逼近 $D_f(P\|Q)$ ；所以上式改写如下：
$\begin{aligned} D_f(P\|Q) & \geq \sup_{T \in \mathcal{T}} \{ \int_{\mathcal{X}} T(x)p(x)\mathrm{d}x-\int_{\mathcal{X}}q(x)f^*(T(x))\mathrm{d}x \} \\ &=\sup_{T \in \mathcal{T}} \{ \mathbb{E}_{x \sim P}[T(x)] -\mathbb{E}_{x \sim Q}[f^*(T(x))]\} \tag{6} \end{aligned}$
同时， $T^*(x)=f'(\frac{p(x)}{q(x)})$ ，见https://arxiv.org/pdf/0809.0853.pdf中5.1节式子 $(45) (46)$ 。
用 $f$ - $d i v e r g e n c e$ 作为目标函数来训练GAN；其中 $P$ 是真实分布， $T_{\omega}$ 是输入输出函数（给一输入找到最优的结果最大化 $(6)$ 式）， $Q_\theta$ 是生成器（假的分布），如下所示：
$\begin{aligned} F(\theta,\omega)=\mathbb{E}_{x \sim P}[T_{\omega}(x)] -\mathbb{E}_{x \sim Q_{\theta}}[f^*(T_{\omega}(x))] \tag{7} \end{aligned}$
正如式子 $(6) (7)$ 所示，目标是两个分布最小化，即需要 $D_f(P\|Q)$ 最小化，但是需要找到最大化 $(6)$ 式得到最优 $T (x)$ 才能很好衡量 $D_f$ ，其次才对 $D_f$ 最小化。所以训练即关于 $\omega$ 最大化，关于 $\theta$ 最小化。
需要考虑 $f^*$ 的定义域，所以假设 $T_{\omega}(x)=g_f(V_{\omega}(x))$ ，其中 $\mathbf{range}_{V_{\omega}}\rightarrow \mathbb{R}$ ；同时 $\mathbf{range}_{g_f} \rightarrow \mathbf{domain}_{f^*}$ ， $g_f$ 激活函数的选择为单调递增函数：
$\begin{aligned} F(\theta,\omega)=\mathbb{E}_{x \sim P}[g_f(V_{\omega}(x))] +\mathbb{E}_{x \sim Q_{\theta}}[-f^*(g_f(V_{\omega}(x)))] \tag{8} \end{aligned}$
原始GAN的目标函数如下所示：
$\begin{aligned} F(\theta,\omega)=\mathbb{E}_{x \sim P}[\log D_{\omega}(x)] +\mathbb{E}_{x \sim Q_{\theta}}[\log (1-D_{\omega}(x))] \tag{9} \end{aligned}$
实际中其实找不到 $D_{\omega}$ ，只能尽量去接近。
所以参数更新即是，其中 $f(\cdot)=u\log u-(u+1)\log (u+1)$ ：
$\begin{aligned} \{\theta,\omega \} & =\arg \min_G \max_D D_f(P \|G_{\theta}) \\ &=\arg \min_G \max_D \{\mathbb{E}_{x \sim P}[\log D_{\omega}(x)] +\mathbb{E}_{x \sim G_{\theta}}[\log (1-D_{\omega}(x))] \} \\ & \rightarrow \frac{\partial \{\mathbb{E}_{x \sim P}[\log D_{\omega}(x)] +\mathbb{E}_{x \sim G_{\theta}}[\log (1-D_{\omega}(x))] \}}{\partial D_{\omega}} \\ &= \frac{\partial \{ \int p(x) \log D_{\omega}(x)\mathrm{d}x + \int g_{\theta}(x)\log (1-D_{\omega}(x))\mathrm{d}x \}}{\partial D_{\omega}(x)} \\ &\rightarrow p(x) \frac{1}{D_{\omega}(x)}-g_{\theta}(x) \frac{1}{1-D_{\omega}(x)}=0\\ &\rightarrow D_{\omega}(x)=\frac{p(x)}{p(x)+g_{\theta}(x)} \tag{10} \end{aligned}$
将上式子再带回目标函数：
$\begin{aligned} & \mathbb{E}_{x \sim P}[\log \frac{p(x)}{p(x)+g_{\theta}(x)}] +\mathbb{E}_{x \sim G_{\theta}}[\log (1-\frac{p(x)}{p(x)+g_{\theta}(x)})] \\ &=\int p(x)\log \frac{p(x)}{p(x)+g_{\theta}(x)}\mathrm{d}x +\int g_{\theta}(x) \log (1-\frac{p(x)}{p(x)+g_{\theta}(x)}) \mathrm{d}x \\ &=\int p(x)\log \frac{\frac{p(x)}{2}}{ \frac{p(x)+g_{\theta}(x)}{2}}\mathrm{d}x +\int g_{\theta}(x) \log (1-\frac{\frac{p(x)}{2}}{\frac{p(x)+g_{\theta}(x)}{2}}) \mathrm{d}x \\ &=\int p(x)\log \frac{p(x)}{ \frac{p(x)+g_{\theta}(x)}{2}}\mathrm{d}x +\int g_{\theta}(x) \log (1-\frac{p(x)}{\frac{p(x)+g_{\theta}(x)}{2}}) \mathrm{d}x-2\log 2 \\ &=\mathbf{KL}(P\| \frac{P+G_{\theta}}{2})+\mathbf{KL}(G_{\theta}\| \frac{P+G_{\theta}}{2})-2\log 2 \\ &=\mathbf{JS}(P\|G_{\theta})-2\log 2 \\ \tag{11} \end{aligned}$
所以整体GAN训练过程就是固定G，找D；然后固定D，找G；如 $(7)$ 式所示。
用不同 $f$ - $d i v e r g e n c e$ 作为目标函数就是不同的度量方式来衡量差距，GAN的由来可能是因为理解生成器和判别器打分形象，但是发现其实很多散度都可以用作差距。如下图所示：

NoTime4Emotion

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
f-GAN: Training Generative Neural Samplers using Variational Divergence Minimization

fff-GAN: Training Generative Neural Samplers using Variational Divergence MinimizationPaper:http://papers.nips.cc/paper/6066-f-gan-training-generative-neural-samplers-using-variational-divergence-min...
复制链接

扫一扫