BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记

最新推荐文章于 2021-12-10 14:48:10 发布

我是白小纯

最新推荐文章于 2021-12-10 14:48:10 发布

阅读量4.4k

点赞数 3

分类专栏： GAN

GAN 专栏收录该内容

3 篇文章 0 订阅

订阅专栏

BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记

摘要

我们提出了一种新的用于促成训练时生成器和判别器实现均衡（Equilibrium）的方法，以及一个配套的 loss，这个 loss 由 Wasserstein distance 衍生而来，Wasserstein distance 则是训练基于自编码器的生成对抗网络（GAN）使用的。此外，这种新的方法还提供了一种新的近似收敛手段，实现了快速稳定的训练和很高的视觉质量。我们还推导出一种能够控制权衡图像多样性和视觉质量的方法。在论文里我们专注于图像生成任务，在更高的分辨率下建立了视觉质量的新里程碑。所有这些都是使用相对简单的模型架构和标准的训练流程实现的。

1.简介

谷歌公司的 Berthelot、Tom Schumm 和 Metz 本周发表论文 BEGAN（Boundary Equilibrium GAN），提出了“边界均衡 GAN” 的概念，借鉴了 EBGAN 和 WGAN 各自的优点，使用简单的模型，在标准的训练步骤下取得了令人惊艳的效果。不仅如此，论文还提出了一个可以衡量收敛的超参数，实现了快速稳定的训练和很高的视觉质量。

作者在论文中写道，他们的主要贡献是：

一个简单且且强壮的 GAN 架构，使用标准的训练步骤实现了快速、稳定的收敛。

一种均衡的概念，用于平衡判别器和生成器（判别器往往在训练早期就以压倒性优势胜过生成器），通过参数 $k$ 实现。

一种控制在图像多样性与视觉质量之间权衡的新方法,通过超参数γ实现。

用于近似衡量收敛的方法实现by Convergence measure $M_{global}$ ，据我们所知，目前发表过的这类方法另外只有一种，那就是 Wasserstein GAN。

1.2EBGAN

“EBGAN 是 Yann LeCun 课题组提交到 ICLR2017的一个工作，从能量模型的角度对 GAN 进行了扩展。EBGAN 将判别器看做是一个能量函数，这个能量函数在真实数据域附近的区域中能量值会比较小，而在其他区域（即非真实数据域区域）都拥有较高能量值。因此，EBGAN 中给予 GAN 一种能量模型的解释，即生成器是以产生能量最小的样本为目的，而判别器则以对这些产生的样本赋予较高的能量为目的。

“从能量模型的角度来看待判别器和 GAN 的好处是，我们可以用更多更宽泛的结构和损失函数来训练 GAN 结构，比如文中就用自编码器（AE）的结构来作为判别器实现整体的GAN 框架，如下图所示：
这里写图片描述

在训练过程中，EBGAN 比 GAN 展示出了更稳定的性能，也产生出了更加清晰的图像。

2.Proposed method（提出的方法）

我们的方法使用从 Wasserstein 距离衍生而来的 loss 去匹配自编码 loss 分布。这是使用经典的GAN模型目标加上一个平衡项以平衡鉴别器和生成器。我们的方法训练过程和网络架构较之GAN更加简单。

2.1Wasserstein距离下限为自动编码器

我们希望研究重构误差分布，而不是重构样本的分布。我们首先介绍自编码器的loss，然后我们计算真实样本和生成样本的自编码loss 分布之间的Wasserstein距离的边界值。

loss采用pixel level的L1或者L2 norm，即

L (v) = ∥ v - D (v) ∥ p, p \in 1, 2

$\begin{align} \mathcal{L}(v)={\|v - D(v)\|}^p \ , \quad p \in {1,2} \end{align}$

接下来用 $\mu_{1,2}$ 来分别表示真实样本的loss分布和生成样本的loss分布， $\Gamma(\mu_{1},\mu_{2})$ 为其联合分布，
$m_{1,2}$ 表示各自的均值，那么Wasserstein 距离就用来确定这两个loss 分布的距离，表示为：

W (μ 1, μ 2) = inf γ \sim Γ (μ 1, m u 2) E (x 1, x 2) \sim γ [| | x 1 - x 2 | |]

$\begin{align} W(\mu_1, \mu_2) = \inf_{\gamma \sim \Gamma (\mu_1, mu_2)} \mathbb{E}_{(x_1, x_2) \sim \gamma} [||x_1 - x_2||] \end{align}$

由Jensen不等式得：

inf E [| | x 1 - x 2 | |] ⩾ inf | | E [x 1 - x 2] | | = | | m 1 - m 2 | |

$\begin{align} \inf \mathbb{E} [||x_1 - x_2||]\geqslant \inf ||\mathbb{E}[x_1 - x_2]||=||m_1 - m_2|| \end{align}$

2.2GAN目标

根据GAN对抗性的原则，D的目标是拉大两个分布的距离，也就是最大化 $W(\mu_1, \mu_2)$ ，而G的目标则是拉近两个分布的距离。

由于 $m_1, m_2 \in \mathcal{R}^+$ ，最大化 $W(\mu_1, \mu_2$ )实际上有两组解：

W (μ 1, μ 2) = m 1 - m 2, m 1 \to \infty, m 2 \to 0 W (μ 1, μ 2) = m 2 - m 1, m 1 \to 0, m 2 \to \infty

$\begin{align} W(\mu_1, \mu_2) = m_1 - m_2, \quad m_1 \rightarrow \infty, \quad m_2 \rightarrow 0 \\ W(\mu_1, \mu_2) = m_2 - m_1, \quad m_1 \rightarrow 0, \quad m_2 \rightarrow \infty \end{align}$

根据D和G的目标，不难确定第二组解更合理。它一方面拉大两个分布的距离，另一方面还能降低真实样本的重构误差（ $m_1$ 代表真实样本重构误差，越小越好）。而G 为了缩小两个分布的差异，可以通过最小化 $m_2$ 来实现。也就是说（D实际上已对目标函数取了相反数，因此下面两个目标函数都需要最小化）

minDLD=L(x;θD)−\L(G(zD;θG);θD)minGLG=−LD

$\begin{align} min \quad D \quad L_{D}=L(x;\theta_D)-\L(G(z_{D};\theta_{G});\theta_D) \\ min \quad G \quad L_{G}=-L_{D} \end{align}$

2.3均衡概念提出

当生成器的loss和鉴别器的loss满足下式时认为两者均衡，此时鉴别器分辨出真假样本的概率是相同的。

E [L (x)] = E [L (G (z))]

$\begin{align} \mathbb{E}[\mathcal{L}(x)]=\mathbb{E}[\mathcal{L}(G(z))] \end{align}$

然而，当D和G的能力不相当时，一方很容易就打败了另一方，这将导致训练不稳定。为此，作者引入了一个超参数 $\gamma \in [0,1]$ 来平衡两者的loss：

γ = E z ( L ( G ( z ) ) ) E x ( L ( x ) )

$\begin{align} \gamma = \frac{\mathbb{E}_z(\mathcal{L}(G(z)))}{\mathbb{E}_x(\mathcal{L}(x))} \end{align}$
在我们的模型里，鉴别器有两个竞争的目标：对真实图像自编码和从生成的图像中区别出真正的图像。

当 $\gamma$ 较小时，D致力于最小化真实样本的重构误差，相对来说，而对生成样本的关注较少（此处有疑问），这将导致生成样本的多样性降低。作者称这个超参数为diversity ratio，它控制生成样本的多样性。

所以现在的目标有两个，尽可能地最小化GAN object以及尽可能地满足保证公式(8)成立。综合这两个目标，可以设计一个判断收敛情况的指标，使用均衡概念推导出一个全局的收敛度量：我们可以构建收敛过程通过找到最接近的重建值 $L（x）$ 加上比例控制算法的瞬时过程误差的绝对值 $|\gamma \mathcal{L}(x) - \mathcal{L}(G(z))|$ 。

M = L (x) + | γ L (x) - L (G (z)) |

$\begin{align} \mathcal{M} = \mathcal{L}(x) + |\gamma \mathcal{L}(x) - \mathcal{L}(G(z))| \end{align}$
为了尽可能地满足公式\mathbb{E}[\mathcal{L}(x)]=\mathbb{E}[\mathcal{L}(G(z))] ，作者借鉴控制论中的“比例控制理论”(Proportional Control Theory)，引入比例增益

λk $\lambda_k$ 和比例控制器的输出

kt $k_t$ ，完整的BEGAN的目标函数如下：

L D L G k t + 1 = L (x) - k t L (G (z)), for θ D = L (G (z)), for θ G = k t + λ k (γ L (x) - L (G (z))), for each training step t

$\begin{align} \mathcal{L}_D &=\mathcal{L}(x) - k_t \mathcal{L}(G(z)) , \quad \text{for} \ \theta_D\\ \mathcal{L}_G &= \mathcal{L}(G(z)) , \quad \text{for} \ \theta_G \\ k_{t+1} &= k_t + \lambda_k (\gamma \mathcal{L}(x) - \mathcal{L}(G(z))) , \quad \text{for each training step} \ t \end{align}$

我们用比例控制理论来实现 $\gamma\mathbb{E}[\mathcal{L}(x)]=\mathbb{E}[\mathcal{L}(G(z))]$ 。
这个等式由 $k_t \in [0,1]$ 来控制 $\mathcal{L}(G(z))$ 在梯度下降时的比例实现。 $k_0=0$ , $\lambda_k$ 是 $k$ 的比例增益，也即是 $k$ 的学习率， $\lambda_k=0.001$
实质上，这可以被认为是一种的闭环反馈控制，在每一步骤调整 $k_t$ 以维持方程式 $\gamma\mathbb{E}[\mathcal{L}(x)]=\mathbb{E}[\mathcal{L}(G(z))]$ ,优化器选择Adam。

在早期训练阶段，因为生成的数据接近0，并且实际数据分布尚未被准确地学习，G容易为自编码器生成易于重建的数据。
这样就有 $\mathcal{L}(x)>\mathcal{L}(G(z))$ (???)，并通过均衡约束在整个训练过程成立。

3.实验

代码为tensorpack/examples/GAN/BEGAN.py\
数据集为celebA/Align\&Cropped images\
代码还没有看，先跑了一下结果。

这里写图片描述

下节分析论文实验部分和代码。

我是白小纯

关注

3
点赞
踩
8

收藏

觉得还不错? 一键收藏
5
评论
BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记

BEGAN: Boundary Equilibrium Generative Adversarial Networks阅读笔记摘要我们提出了一种新的用于促成训练时生成器和判别器实现均衡（Equilibrium）的方法，以及一个配套的 loss，这个 loss 由 Wasserstein distance 衍生而来，Wasserstein distance 则是训练基于自编码器的生成对抗网络（GAN）
复制链接

扫一扫

专栏目录