李弘毅老师GAN笔记（六），WGAN / EBGAN

最新推荐文章于 2024-03-19 15:07:37 发布

taoyafan

最新推荐文章于 2024-03-19 15:07:37 发布

阅读量1.7k

点赞数

分类专栏：深度学习文章标签： GAN

本文链接：https://blog.csdn.net/taoyafan/article/details/82712185

版权

深度学习专栏收录该内容

10 篇文章 2 订阅

订阅专栏

1、JS-divergence 的问题

在原始 GAN 中，使用的 JS-divergence 存在一些问题，这里介绍其中的一个问题。在图像所在的高维空间中，生成的图像分布和真实图像的分布可能是完全没有重叠的，比如在三维空间举一个例子，可以理解为两者的分布是三维空间中的两个面，那么他们重叠的部分几乎为零。那么这样 JS-divergence 的问题就出现了。
如下图所示， $P_{G_{0}}$ 与 $P_{data}$ 如果没有交集，那么无论间隔多远，算出来的 JS-divergence 都是 log2

这个问题的其中一个原因是因为 GAN 的判别网络是用的 sigmoid 函数，如果训练的太好的话会导致梯度消失。如下图所示：

如果判别网络训练的太好，则在真实数据和生成数据的部分微分是0，所以要保证判别网络不能训练的太好，然后再训练生成网络。
有一个方法就是不用 sigmoid 函数，改用线性函数。这个就是 LSGAN。

2、WGAN 原理

有一种解决方法就是想办法衡量两个分布的距离，这便是 WGAN 要解决的问题，它提出的衡量两个分布的距离的方法是，将一个分布的值进行移动，使得移动后的新的分布和另一个分布相同，需要移动的最短距离就是 WGAN 提出的衡量的距离的方法，这个距离叫做 Wasserstein distance，我上边的解释可能不是很容易理解，先放一张图，再解释可能容易理解些。

左边是分布 P ,上边是分布 Q，如果是衡量从将 P 分布移动的和 Q 移动的一样，则横着看，第 (i,j) 个方格表示从 P(i) 移动到 Q(j) 的量的大小，颜色越浅表示移动的越多。
则总距离表示为

B (λ) = \sum x p, x q γ (x q, x q) | | x q - x q | |

$B(\lambda) = \sum_{x_{p},x_{q}} \gamma(x_{q}, x_{q})||x_{q} - x_{q}||$
则 Wasserstein distance 表示为

W (P, Q) = min γ B (γ)

$W(P, Q) = \min_{\gamma} B(\gamma)$
使用 Wasserstein distance 便可以衡量两个完全没有交集的分布的距离了。

3、 WGAN 实现

经过推导后，WGAN 的公式如下：

V (G, D) = max D \in 1 - L i p s c h i t z {E x \sim P d a t a [D (x)] - E x \sim P G [D (s)]}

$V(G, D) = \max_{D\in1-Lipschitz}\{{E_{x\sim P_{data}[D(x)]} - E_{x\sim P_{G}[D(s)]}}\}$
1-Lipschitz 是什么下边再讲，上边的公式就是希望 x 从真实数据中采样出的期望越大越好，而从生成数据中采样出的期望越小越好。
所谓 k-Lipschitz，就是指函数满足下边的要求：

| | f (x 1) - f (x 2) | | \leq K | | x 1 - x 2 | |

$||f(x_{1}) - f(x_{2})|| \le K||x_{1} - x_{2} ||$
其实就是斜率不大于 K，那么 1-Lipschitz 就是指斜率不大于 1。
在原始的 WGAN 中没有详细介绍如何求解这个 V(G, D)，只是给出了一种可以实现的方法（weight clipping）：设定一个参数 c，当 w 大于 c 时设定为 c，小于 -c 时设定为 -c，但是这个并没有将 D 限制为 1-Lipschitz，下边给出改进版的WGAN。

4、Improved WGAN（WGAN-GP）

GP 的全称为 gradient penalty，看完下面的介绍会明白这两个词的意思的。
前面提到了一个问题，及这个 1-Lipschitz 怎么实现，在 WGAN-GP 又给出了一种方法：要求 D 为 1-Lipschitz 的函数也就是 D(x) 对 x 的梯度在取所有的 x 时都小于1 ，所以在目标函数后面加一个正则项，目标函数变为：

V (G, D) = max D {E x \sim P d a t a [D (x)] - E x \sim P G [D (s)] - λ \int x m a x (0, | | \nabla x D (x) - 1 | |) d x}

$V(G, D) = \max_{D}\{{E_{x\sim P_{data}[D(x)]} - E_{x\sim P_{G}[D(s)]}} - \lambda \int_{x} max(0, ||\nabla_{x}D(x) - 1|| )dx \}$ .
但是要所有的 x 都满足是不可能的，所以提出了 penalty 这个范围，只要求这个范围的 x 满足。而 penalty 为

PG P G $P_{G}$ 中采样的数据和

Pdata P d a t a $P_{data}$ 采样的数据的连线中取一个随机的采样，也就是只要

PG P G $P_{G}$ 和

Pdata P d a t a $P_{data}$ 中间这个范围的 D 满足 1-Lipschitz 就行了。
在实际上做的时候，希望

||∇xD(x)|| | | ∇ x D ( x ) | | $||\nabla_{x}D(x)||$ 越接近 1 越好，所以实作时时候的目标函数为：

V (G, D) = max D {E x \sim P d a t a [D (x)] - E x \sim P G [D (s)] - λ E x \sim P p e n a l t y (| | \nabla x D (x) - 1 | |) 2

$V(G, D) = \max_{D}\{{E_{x\sim P_{data}[D(x)]} - E_{x\sim P_{G}[D(s)]}} - \lambda E_{x \sim P_{penalty}} (||\nabla_{x}D(x) - 1|| )^{2}$ .
但是直觉上也还会存在一些问题，比如从

PG P G $P_{G}$ 到

Pdata P d a t a $P_{data}$ 更新的实际路线可能是曲线，但是是用 penalty 的话是用的是两者的连线即可能不是实际上更新的路线。

5、Spectrum Norm

这个方法可以使得 D(x) 的梯度的范数在任何地方都是小于 1 的。
课上没有仔细讲，祥见paper：
Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida, Spectral Normalization for Generative Adversarial Networks, ICLR, 2018

6、Energy-based GAN（EBGAN）

把 Discriminator 个结构改了一下，如下图所示：

直接改成了一个 Autoencoder，输出的结果就是 Autoencoder 的值乘个负号。这个的好处就是可以提前训练判别网络。

taoyafan

关注

0
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
李弘毅老师GAN笔记（六），WGAN / EBGAN

1、JS-divergence 的问题在原始 GAN 中，使用的 JS-divergence 存在一些问题，这里介绍其中的一个问题。在图像所在的高维空间中，生成的图像分布和真实图像的分布可能是完全没有重叠的，比如在三维空间举一个例子，可以理解为两者的分布是三维空间中的两个面，那么他们重叠的部分几乎为零。那么这样 JS-divergence 的问题就出现了。如下图所示，PG0PG0P_{G_...
复制链接

扫一扫

专栏目录