tf中的GAN原理及变种

最新推荐文章于 2024-04-20 14:13:17 发布

哈工程第一亚索

最新推荐文章于 2024-04-20 14:13:17 发布

阅读量327

点赞数

分类专栏： tensorflow 文章标签：深度学习

本文链接：https://blog.csdn.net/qq_46588746/article/details/120549613

版权

37 篇文章 2 订阅

订阅专栏

GAN基本结构：
GAN基本思想：训练一个判决器，要求其判决准度够高。训练一个生成器，使其生成的数据的分布与训练判决器数据的分布尽可能接近，即使 $p_g(x)$ $p_r(x)$ 尽可能相似
GAN的损失函数： $min_{G}\ max_{D}L(D,G) = E_{x\sim p_{r}(x)}[\log D(x)]+E_{z\sim p_{z}(z)}[\log (1-D(G(z)))]$ $min_{G}\ max_{D}L(D,G) = E_{x\sim p_{r}(x)}[\log D(x)]+E_{x\sim p_{g}(x)}[\log (1-D(x))]$

GAN训练方法：一般在训练GAN时，首先固定G，训练D，然后再固定D，训练G
KL散度： $D_{KL}(p\mid\mid q) = \int_\infty p(x)\log\frac {p(x)}{q(x)}dx$
JS散度： $D_{JS}(p\mid\mid q) = \frac{1}{2}D_{KL}(p\mid\mid \frac{p+q}{2}) + \frac{1}{2}D_{KL}(q\mid\mid \frac{p+q}{2})$
Discriminator（D）：GAN的损失（质量）函数为 $\int_\infty p_{r}(x)\log D(x)+p_{g}(x)\log (1-D(x))dx$ 在固定G后，可以简化为 $D_G^*(x) = \frac{p_r(x)}{p_r(x)+p_g(x)}$
Generator（G）： $D_{JS}(p_r\mid\mid p_g) = \frac{\log 4 + L(G,D^*)}{2}$ $L(G,D^*) = 2D_{JS}(p_r\mid\mid p_g)-2\log2$

JS和KL散度存在的问题：KL和JS散度在p和q相差较大的时候，更新十分困难（梯度弥散）。对于GAN，初始状态（一般为高斯噪声）与所需生成的数据之间的差距一般差别很大，这就导致了GAN的初期训练十分艰难
Wasserstein距离：Wasserstein距离指把一个分布转化为另一个分布的最小步数
【数学】Wasserstein Distance

相比于传统GAN的损失函数（基于JS散度），WGAN采用Wasserstein Distance作为损失函数，有效地解决了初期训练困难的问题
WGAN采用Wasserstein Distance作为损失函数，需要满足下式（1-Lipschitz Function） $\mid f(x_1)-f(x_2)\mid \leq \mid x_1-x_2\mid$ 为了满足此式采用Weight Clipping，即把权值限定在[-a,a]中，若w>a，则w=a；若w<-a，则w=-a；Weight Clipping思想即把参数总量限制在一定范围内
WGAN的损失函数： $E_{\check{x}\sim P_g}[D(\check{x})] - E_{x\sim P_r}[D(x)] + \lambda E_{\hat{x}\sim P_{ \hat{x} }}[(\mid\mid \nabla_{\hat{x}}D(\hat{x}) \mid\mid_2 - 1)^2]$ $\hat{x} = t\check{x} + (1-t)x \ \ \ \ \ \ \ \ \ \ \ \ \ 0 \leq t \leq 1$ 其中前两部分是计算损失，最后一个部分是限制参数（梯度）在某一范围
WGAN的初期训练不需要精细设计参数，就可得到较好的结果

关注

专栏目录