【GAN】若干常见GAN中的Loss及部分知识

最新推荐文章于 2024-08-31 08:01:24 发布

NooahH

最新推荐文章于 2024-08-31 08:01:24 发布

阅读量9.8k

点赞数 6

分类专栏： GAN 文章标签：深度学习

本文链接：https://blog.csdn.net/nooahh/article/details/106164206

版权

GAN 专栏收录该内容

2 篇文章 0 订阅

订阅专栏

本文主要是列举几种GAN中的loss函数形式以及部分相关知识。

1. GAN的多种形式

1.1 GAN 14.01

原始GAN论文[1]中指出，生成器 $G$ 和判别器 $D$ 在进行零和博弈，最终达到纳什均衡。可以用下面的值函数（value function）表示：
$\min_{G} \max_{D} V(G, D) = \min_{G} \max_{D} \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_{z}}[\log (1-D(G(z)))]$
其中 $p_{data}$ 表示真实数据分布， $x$ 表示该分布中的样本， $p_{z}$ 表示噪声变量 $z$ 的先验分布。
在求解时分别对生成器和判别器计算loss，vanilla GAN中由于生成器loss不同而有两种形式：

1) Minimax GAN

判别器loss和生成器loss分别为：
$\begin{aligned} &\max_{D} L(D) = \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_{z}}[\log (1-D(G(z)))] \\ &\min_{G} L(G) = \mathbb{E}_{z \sim p_{z}}[\log (1-D(G(z)))] \end{aligned}$
上式的判别器loss就是负的二分类交叉熵损失。

2) Non-saturating GAN

仅是更改了生成器loss形式，在[2]中3.2一节有更详细的解释，1)中初期判别器能很好地区分真假样本的时候，生成器会面临梯度消失的问题。更改后的生成器loss在训练初期会有较大的梯度，使得生成器能较快开始更新。
$\begin{aligned} &\max_{D} L(D) = \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_{z}}[\log (1-D(G(z)))] \\ &\min_{G} L(G) = -\mathbb{E}_{z \sim p_{z}}[\log D(G(z))] \end{aligned}$
两种不同生成器loss的示意图[2]：
在这里插入图片描述

但是上述两种形式的GAN还是存在若干问题，详见1.4节。

1.2 BiGAN 16.05

BiGAN[12]全称 Bidirectional Generative Adversarial Networks，意为双向GAN。文中作者结合编解码器和判别器的结构，设计出了双向GAN，这里的双向指的是一个方向从编码器到解码器，另一个方向是从解码器到编码器。具体组织形式如下图：
在这里插入图片描述
说明：

$G$ ：生成器，可视为解码器； $D$ ：判别器； $E$ ：编码器
$\textbf{x}$ ：真实样本； $\textbf{z}$ ：潜在表征（latent representation）
$E(\textbf{x})$ ： $\textbf{x}$ 编码到潜在空间的表征
$G(\textbf{z})$ ：由 $\textbf{z}$ 生成出的数据
$y$ ：表示分类结果。若来自真实样本， $y = 1$ ；若是生成样本， $y = 0$

上图描述的过程是：

输入真实图像 $\textbf{x}$ ，经过 $E$ 编码后得到 $E(\textbf{x})$ 。
从某个分布中采样随机噪声 $\textbf{z}$ ，经过 $G$ 解码得到 $G(\textbf{z})$ 。
经过上述2步后，得到两个样本对 $(\textbf{x},E(\textbf{x}))$ 和 $(G(\textbf{z}),\textbf{z})$ ，将这两个样本对输入到判别器 $D$ ，让 $D$ 判断是由编码器 $E$ 还是生成器 $G$ 产生的。

最终目的就是让判别器 $D$ 区分不出是从编码器 $E$ （Real）还是从生成器 $G$ （Fake）产生的。

优化过程如[13]中图示：
在这里插入图片描述
注：上图中的 $D e$ 就是前文图示中的 $G$ 。

BiGAN的目标函数如下所示：
在这里插入图片描述
该目标函数的含义就跟vanilla GAN中一样，要是来自真实数据，判别器 $D$ 输出就越大；若是来自生成数据， $D$ 的输出就越小。

最优的编码器 $E$ 和生成器 $G$ 是想要达到：
$\begin{aligned} &\textbf{x} = G(E(\textbf{x})) \\ &\textbf{z}= E(G(\textbf{z})) \end{aligned}$
$E$ 和 $D$ 就成了一对互逆的网络。

BiGAN让GAN有了表征学习能力，因为BiGAN里有从数据空间向潜在空间的映射，这使得可以学习到一些有意义的特征，捕捉到高层语义。

与BiGAN几乎相同的工作，ALI（Adversarially Learned Inference）[14]于16.06挂在了arxiv上，在博客[15]中有讲到这篇文章。

1.3 LSGAN 16.11

判别器loss和生成器loss为：
$\begin{aligned} &\min_{D} L(D) = \frac{1}{2}\mathbb{E}_{x \sim p_{data}}[(D(x)-1)^2] + \frac{1}{2}\mathbb{E}_{z \sim p_{z}}[(D(G(z)))^2] \\ &\min_{G} L(G) = \frac{1}{2}\mathbb{E}_{z \sim p_{z}}[(D(G(z))-1)^2] \end{aligned}$

1.4 WGAN 17.01

WGAN[4, 5]是利用了Wasserstein distance（也叫Earth Mover’s Distance）来度量真实分布和生成分布间的距离，目的就是解决vanilla GAN存在的问题[6]：

在原始GAN的（近似）最优判别器下，第一种生成器loss面临梯度消失问题，第二种生成器loss面临优化目标荒谬、梯度不稳定、对多样性与准确性惩罚不平衡导致mode collapse这几个问题。

这里的“第一种生成器loss”指Minimax GAN中的。在最优判别器下，生成器loss即由两个分布间的JS散度表示。当真实分布和生成分布不相交的时候，两个分布间的JS散度是个固定值 $l o g 2$ ，也就是说生成器loss是个常数，当前也就不能提供梯度以用于参数的更新。
“第二种生成器loss”值Non-saturating GAN中的。

WGAN的值函数为：
$\min_{G} \max_{D \in 1-Lipschtiz}\mathbb{E}_{x \sim p_{data}}[D(x)] - \mathbb{E}_{z \sim p_{z}}[D(G(z))]$
判别器loss和生成器loss为：
$\begin{aligned} &\min_{D} L(D) = \mathbb{E}_{z \sim p_{z}}[D(G(z))] - \mathbb{E}_{x \sim p_{data}}[D(x)] \\ &\min_{G} L(G) = -\mathbb{E}_{z \sim p_{z}}[D(G(z))] \end{aligned}$

WGAN为了让 $D$ 满足 $1 - L i p s c h t i z$ 连续，引入weight clipping，把神经网络的参数限制在某个范围 $[- c, c]$ 内，
$w :=clip\_by\_value(w, -0.01, 0.01)$

1.5 WGAN-GP 17.04

WGAN-GP[7]改进了让 $D$ 满足 $1 - L i p s c h t i z$ 连续的条件，将weight clipping换成了Gradient Penalty。
有下面等价形式[8]：
$\in 1-Lipschtiz \Leftrightarrow \Vert \nabla_xD(x) \Vert_{2} \leq 1\quad for\ all\ x$
上式意思是： $D (x)$ 对所有 $x$ 求梯度，所有梯度的2-范数都小于等于1即说明 $D$ 是 $1 - L i p s c h t i z$ 连续。
但是对所有 $x$ 进行计算时不现实的， $x$ 的数据空间很大，不可能遍历到所有 $x$ ，为此WGAN-GP中选择了 $x\sim p_{penalty}$ 来计算。这个 $p_{penalty}$ 是指真实分布和生成分布间的区域，也就是说选择一个真实样本 $x_r$ 和一个生成样本 $x_g$ ，两个样本间的连线上选择一个样本 $x_p$ ，即 $x_p=\alpha x_r + (1-\alpha)x_g,\ 0 \leq \alpha \leq 1$ 。这些样本构成了 $p_{penalty}$ 。如下图所示：
在这里插入图片描述

WGAN-GP的目标函数：
$\min_{G} \max_{D}V(G, D)=\mathbb{E}_{x \sim p_{data}}[D(x)] - \mathbb{E}_{z \sim p_{z}}[D(G(z))] - \lambda \mathbb{E}_{\hat x \sim p_{penalty}}[(\Vert \nabla_{\hat x}D(\hat x) \Vert_{2}-1)^2]$
判别器loss和生成器loss为：
$\begin{aligned} &\min_{D} L(D) = \mathbb{E}_{z \sim p_{z}}[D(G(z))] - \mathbb{E}_{x \sim p_{data}}[D(x)] + \lambda \mathbb{E}_{\hat x \sim p_{penalty}}[(\Vert \nabla_{\hat x}D(\hat x) \Vert_{2}-1)^2] \\ &\min_{G} L(G) = -\mathbb{E}_{z \sim p_{z}}[D(G(z))] \end{aligned}$

1.6 Geometric GAN 17.05

Geometric GAN[9]利用了SVM中hinge loss思想，对生成器loss和判别器loss做出了相应改变。
判别器loss和生成器loss为：
$\begin{aligned} &\min_{D} L(D) = \mathbb{E}_{x \sim p_{data}}[max (0, 1- D(x))] + \mathbb{E}_{z \sim p_z}[max(0, 1+D(G(z)))] \\ &\min_{G} L(G) = -\mathbb{E}_{z \sim p_z}[D(G(z))] \end{aligned}$

2. 相关知识

2.1 Gradient Penalty

在1.5节中有说到在判别器loss上施加gradient penalty，起到正则化的作用，也使GAN能具有某些性质。
[10]中提出了两种 gradient penalty方法：
在这里插入图片描述
说明：上图中 $p_{D}(x)$ 表示真实样本分布， $p_{\theta}(x)$ 表示生成样本分布。

在[11]中将上图中 $R_1$ 正则化项称为0-GP-sample，WGAN-GP中的正则化项称为1-GP，同时提出了0-GP方法。引用[11]中的图表：
在这里插入图片描述
说明：上图中的 $\textbf{\textit{x}}$ 指的是真实样本， $\textbf{\textit{y}}$ 指的是生成样本。

参考文献

[1] Generative Adversarial Nets
[2] NIPS 2016 tutorial: Generative adversarial networks
[3] Least Squares Generative Adversarial Networks
[4] Towards principled methods for training generative adversarial networks
[5] Wasserstein Generative Adversarial Networks
[6] 令人拍案叫绝的Wasserstein GAN（推荐阅读一下）
[7] Improved Training of Wasserstein GANs
[8] 李宏毅WGAN讲义
[9] Geometric GAN
[10] Which Training Methods for GANs do actually Converge?
[11] Improving Generalization and Stability of Generative Adversarial Networks
[12] Adversarial Feature Learning
[13] 李宏毅InfoGAN, VAE-GAN, BiGAN讲义
[14] Adversarially Learned Inference
[15] 关于GAN你想知道的全部

NooahH

关注

6
点赞
踩
38

收藏

觉得还不错? 一键收藏
0
评论
【GAN】若干常见GAN中的Loss及部分知识

1. GAN原始GAN论文[1]中指出，生成器GGG和判别器DDD在进行最小最大博弈。可以用下面的函数表示：min⁡Gmax⁡DV(G,D)=min⁡Gmax⁡DEx∼pdata[log⁡D(x)]+Ez∼pz[log⁡(1−D(G(z)))]\min_{G} \max_{D} V(G, D) = \min_{G} \max_{D} \mathbb{E}_{x \sim p_{data}}[\log D(x)] + \mathbb{E}_{z \sim p_{z}}[\log (1-D(G(z)))]
复制链接

扫一扫

专栏目录