CycleGAN 论文
Unpaired Image-to-Image Translation Using Cycle-Consistent Adversarial Networks
论文地址:Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks-ReadPaper论文阅读平台
摘要:
翻译
图像到图像的转换是一类视觉与图形问题,其目标是利用一系列对齐的成对图像(aligned image pairs)来训练学习输入图像和输出图像之间的映射。然而,对于许多任务来说,成对的训练数据是不可获取的。我们提出了一种方法,在没有成对实例的情况下学习将图像从源域(source domain)X转换到目标域(target domain)Y。我们的目标是学习一个映射G:X→Y,使G(X)的图像分布与使用对抗性损失的Y分布不可区分。因为这个映射是高度欠约束的( highly under-constrained),我们把它与一个反向映射F:Y→X结合起来,并引入一个循环一致性损失来推动F(G(X))≈X(反之亦然)。在几个不存在配对训练数据的任务上给出了定性的结果,包括风格迁移、物体变形、季节转换、照片增强等。并与之前的几种方法进行定量比较,证明了我们的方法的优越性。
提炼
- 图像翻译任务需要对齐的图像对,但很多场景下无法获得这样的训练数据
- 提出了一个基于非配对数据的方法,仍然可以学习到不同 domain 图像间的映射
- CycleGAN是在GAN loss的基础上加入循环一致性损失,使得 F(G(X)) 尽量接近 X (反之亦然)
- 在训练集没有配对图像的情况下,对CycleGAN在风格迁移、物体变形、季节转换、图像增强等多个图像翻译任务中的生成结果做了定性展示
- 与此前一些方法的定量比较,进一步显示了CycleGAN的优势
研究背景
双射( Bijection )
既是单射又是满射的映射,即“一一映射”
- 映射:两个非空集合X与Y间存在着对应关系f,而且对于X中的每一个元素x,Y中总有唯一的一个元素y与x对应
- 单射( injection ):对于X中不同的元素x,其所对应的y也各不相同
- 满射( surjection ):对于Y中的每一个元素y,都至少存在一个x与其对应
域自适应/泛化(Domain Adaptation/Generalization)
- domain自适应/泛化是迁移学习的一块重要研究领域
- 不同形式和来源的数据,其domain各不相同,数据分布存在域差异(Domain Discrepancy)
- 而domain自适应/泛化的目标,就是学习到不同domain间的域不变(Domain Invariant)特征
神经风格迁移(Neural Style Transfer)
- 在CNN中,通过CV任务学习到的content表征和style表征可以进行区分
- Gram矩阵:一组向量间两两的内积所组成的矩阵,称为这组向量的Gram matrix,它可以表示这组向量的长度以及之间的相似程度
- 使用预训练CNN模型中的高层feature作为输入图像的content表征,使用各层feature的Gram矩阵作为输入的style表征
研究成果
研究意义
-
在pix2pix的基础上,通过引入循环一致性,减少了对配对数据集的需求,进一步拓展了GAN在图像翻译领域的应用范围
-
进一步验证了 GAN + 循环一致性/对偶(dual)的思路,可以在无监督 DomainAdaptation 的领域中取得不错的效果
论文结构
- Introduction
- Related work
- Formulation
3.1. Adversarial Loss
3.2. Cycle Consistency Loss
3.3. Full Objective - Implementation
- Result
5.1. Evaluation
5.1.1. Evaluation Metrics
5.1.2. Baseline
5.1.3. Comparison against baselines
5.1.4. Analysis of the loss function
5.1.5. Image reconstruction quality
5.1.6. Additional results on paired datasets
5.2. Application - Limitations and Discussion