论文笔记 - Cycle-GAN Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

最新推荐文章于 2024-12-03 21:13:51 发布

andyL_05

最新推荐文章于 2024-12-03 21:13:51 发布

阅读量594

点赞数

分类专栏：论文阅读深度学习计算机视觉

本文链接：https://blog.csdn.net/andyL_05/article/details/107180532

版权

深度学习同时被 3 个专栏收录

21 篇文章

订阅专栏

计算机视觉

15 篇文章

订阅专栏

论文阅读

8 篇文章

订阅专栏

论文笔记 - Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

本文是ICCV 2017的一篇文章，也就是著名的Cycle-GAN一文。同时期研究生成模型的算法很多（现在依然有很多）起了各种xxxGAN的名字。
CycleGAN是生成模型中很有启发性的一个工作，马和斑马的图也在网络上广为流传。
论文和源码、模型都可以在作者的网页找到。
在这里插入图片描述

Abstract

图像向图像的转化是一类视觉与图形学问题，其目的是通过对其的图像对学习输入和输出图像之间的映射关系。但是对于很多场景任务，无法获取成对的训练集。本文提出了一种图像转化学习策略能够从非成对的图像集中学习源domain X向目标domain Y转化。其目的是通过对抗loss学习X向Y的生成器G是的生成的G(X)的分布与Y的分布无法分辨。由于这个映射是高度无约束的，本文设计了反向映射器F：Y->X
并提出了循环一致损失 $F(G(X))\approx X$ （反之亦然）。本文展示了算法在一些没有成对训练集的任务取得的成果，与几种已有方法的定量比较表明了本文的方法的优越性。

Introduction && Related works

文章在这部分以莫奈画作为引子，讲述了我们能够想象出莫奈画作对应的真实场景，并切入引出了本文要做的事，实现在非成对训练集上学习跨域图像转化。开篇非常的诗情画意而新颖，不失人文气息，写论文还是要学习一个啊。
更广泛来看这是一个image-to-image translation问题，但很多场景没有成对的数据。
文章先是简述了标准GAN如何处理这一问题，设计一个生成器G用于跨域的映射，并使得生成的fake图分布与real图分布无法区分。
而在实际过程中，标准的GAN流程面临着“著名的”模型崩溃问题，生成器只需要学会极少量的生成fake图就能骗过判别器。这个问题也是GAN生成对抗模型的重要问题之一，到目前GAN的训练还是比较困难的。
本文提出了采用两个映射单元 $\rightarrow Y$ 和 $Y\rightarrow X$ ，并且 $\approx x, G(F(y)) \approx y$ 这在文中被称为cycle consistency loss循环一致损失。
文章提到了相关工作(GAN image-to-image translation等)，并提出本文的方法不依赖于成对数据集、也不需要特定任务（不引入其他先验信息）这里不再赘述。

Formulation

在这里插入图片描述
文章提出的CycleGAN思路如上图所示。

与一般GAN一样，通过判别器判别真假获取对抗loss。

通过一范数L1 loss衡量循环生成的图与原图的差异作为循环一致损失。代码实现中也使用了生成图像的L1 loss（G(x) vs y, F(y) vs x)
在这里插入图片描述
综合的损失函数。

Implementation

实现细节上，本文为了更好监督图像生成质量选用patchGAN的输出形式作为判别器输出，不是输出一个浮点数表示概率，而是输出一个矩阵表示每一块真假的概率。GAN loss方面不同于对数损失而是选择了最小二乘。为了减少震荡，判别器使用之前生成的图而非刚刚生成的图

Results

在这里插入图片描述
结果这里就简单放一些例子吧，原文展示了很多。
文章在讨论环节加入了生成图的L1 loss（identity）并展示了是否增加这一约束的对比，文章指出这有利于提高生成图像的色彩合成。

总而言之这篇文章是GAN文章的经典之作，对于GAN对数据的要求以及不稳定性都有所改进。文章讨论了提出的CycleGAN的一些失败生成样例，认为原因可能在于生成器被训练为进行明显的改变；另外训练集本身的分布特性对生成结果也有影响。
CycleGAN的思路很有启发性，在目前的生成模型研究中有很大的作用。