GAN之野狼DiscoGAN

最新推荐文章于 2024-05-17 09:51:52 发布

Leon嘞

最新推荐文章于 2024-05-17 09:51:52 发布

阅读量438

点赞数 1

分类专栏：图像生成文章标签：计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_43820692/article/details/104783302

版权

图像生成专栏收录该内容

2 篇文章 0 订阅

订阅专栏

DiscoGAN学习（Learning to Discover Cross-Domain Relations with Generative Adversarial Networks）

一、相关知识

Cross-domain（跨域）：跨域这个词听起来比较陌生，但事实上很常见。举个栗子，我们能够辨认出一句英语以及他被翻译后的汉语；我们选择了一件夹克可能需要再搭配上相同风格的鞋子。其中英语、汉语两个语种，夹克、鞋子两种服饰都是域，而寻找他们之间的关系便是一种常见操作。
在用机器进行图像识别中，如果一个域中的图片缺失，那么另一个域中与之相关联的图片便丢了伴，或者这么说，一个域中的图片缺少了其在另一个域中的对映体。因此，发现两个域之间的关系就显得尤为重要。
本文主要贡献：提出了DiscoGAN,可以进行跨域操作，发现两个域之间的关系。

二、模型结构

公式
G（AB）：域A到域B的映射
G（BA）：域B到域A的映射
D（A）： A中的判别器
D（B）： B中的判别器
作者此处对二者关系进行了限定：域A与域B之间为双射，即两域元素之间一一对应关系。故有如下关系：
但是这个条件太严格了，我们需要一个较为宽松一点的限制。于是我们把限制条件调整为：
我们要做的即为最小化这个值，反之亦然：
保证G（AB）映射到域B上其实也很难进行优化，于是再次放缓条件，将生成对抗损失调整为
带有重构损失的标准GAN

因为这个结构只学习域A到域B这一个映射，我们又添加了一个从域B回馈到域A的生成器，同时添加了重构损失项来比较输入和重构项的区别：
生成器根据域A中的输入x(A)生成域B中的图像x（AB），然后根据x(AB)，再次生成域A中的图像来和原输入图匹配。计算二者之间的损失，最后x(AB)在判别器中和域B中的样例x(B)比较并给出分数，以下是数学过程：
但是这个模型缺少B到A的限制，此时的映射只是一个方向，换句话说，映射是单射而不是双射，一对一的联系没有被保证。如下图所示：

（a) 理想的映射

（b) 失败案例

© 带有重构模型的失败案例
DiscoGAN登场
每两个模型学习一个域到另一个的映射以及对于重构的相反映射。两个模型同时训练，两个生成器共享参数，并且生成的图片互相送到判别器中。
和之前模型的一个关键不同点是两个域中的输入图片都被重构了并且有两个重构损失LCONSTA和LCONSTB。

三、实验设计

Toy Experiment
为了证明标准GAN，带有重构损失的GAN以及DiscoGAN之间的差异，作者设计了如下实验：

首先（a)图表示由于生成器的初始化，域A几乎全部映射到了一个个小点上。一个个黑色叉号表示了目标域。多彩的部分表示域A映射到了域B的样本点。每一种颜色表示了A中一个模式的样本。本实验中，任务是跨域发现域A和域B之间的联系，然后把五个来自域A的模式转换到域B中。可以看到图中有十种模式围成一个圆圈。
多彩的背景展示了判别器D(B）的输出值，该判别器判别了真实的样本和根据域A生成的假的样本。轮廓线表示具有相同判别值的区域。
在标准GAN中，许多不同颜色的翻译点分布于相同的B模式。比如，海军蓝和淡蓝色分到了一块，绿色和橘黄色分到了一块。这个结果解释了GAN模型的模型爆炸问题，因为多个颜色被分到了相同的B模式，如图（b)
对于具有重构损失的GAN，模型爆炸并不是很要紧，但是多种颜色仍然稍微有些重叠。可以看出，带有重构损失后域B的多种模式被清晰地分开，如图（c)

但是，以上两种方法都没有解决掉非双射问题，因为还有部分B的模式没有对应的来自A 的映射。BUT，DiscoGAN解决了这个问题。如图（d)
Real Domain Experiment
汽车角度匹配问题

在这里插入图片描述
作者进行了车头对应的实验，域A和域B两个域之间车头方向关于0度对称，其中（a)为标准 GAN下的图像，（b)为带有重构损失的图像（c)为DiscoGAN下的图像，可以看出（a)和（b)中存在聚类现象，也就是说大量域A的图像匹配到了相同的域B的图像，显然这是不合适的。
之后作者进行的面部匹配实验与上述实验无太多区别，这里不再赘述，用图说话：在这里插入图片描述