GAN生成对抗网络合集（七）：cycleGAN—循环损失的提出 / starGAN

最新推荐文章于 2025-04-05 12:03:07 发布

dexterod

最新推荐文章于 2025-04-05 12:03:07 发布

阅读量1.2w

点赞数 12

分类专栏： GAN 文章标签：计算机视觉

本文链接：https://blog.csdn.net/dexterod/article/details/106521517

版权

本文深入解析了cycleGAN的基本思想和源文，探讨了在无成对训练数据的情况下，如何利用循环一致性损失进行图像到图像的翻译。文章详细介绍了cycleGAN的对抗性损失和循环一致性损失，并指出两者对于模型训练的重要性。同时，文章讨论了cycleGAN在风格转换、物体变形等领域的应用，并与现有方法进行了比较，展示了其优越性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

cycleGAN源文：https://arxiv.org/abs/1703.10593
cycleGAN笔者实践代码：https://github.com/leehomyc/cyclegan-1

-----------------------------------------------------------------------------------------------------------------------------------------

1 cycleGAN大体思路

到了cycleGAN，就不再像之前几个改进，仅仅停留在改动 Loss，还开始改动结构了…

在这里插入图片描述

2 源文精析

2.1 Abstract

图像到图像的翻译是一类视觉和图形问题，其目标是学习输入图像和输出图像之间的映射使用一组对齐的图像对。然而，对于许多任务，成对的训练数据是不可用的。本文提出了一种学习方法，在没有成对实例的情况下，将图像从源域X转换为目标域Y。我们的目标是学习一个映射G: X->Y，使来自G(X)的图像的分布与使用对抗损失的分布难以区分。因为这个映射是高度欠约束的，我们将它与一个逆映射F: Y->X 和引入一个循环一致性损失执行F(G(X))约等于X (Y与G(F(Y))亦然).在不存在成对训练数据的情况下，对风格转换、物体变形（有限）、季节转换、照片增强等任务进行定性分析。通过与已有方法的定量比较，证明了该方法的优越性。

2.2 Introduction

在这里插入图片描述

注：cycleGAN是无序的图像对应，有序是指类似于：图像<->标签 / 图像<->边缘

       图像到图像的翻译[22]，是将一个图像从一个给定场景的一种表示x，转换成另一个y。例如，灰度到颜色，图像到语义标签，边缘地图到照片。多年来在计算机视觉、图像处理、计算摄影和图形方面的研究已经产生了强大的翻译系统，在监督设置，其中的示例图像对{xi,yi}Ni=1是可用的(图2，左)，例如，[11,19,22,23,28,33,45,56,58,62]。然而，获得成对的训练数据可能是困难和昂贵的。例如，只有几个数据集用于语义分割(例如[4])，而且它们相对较小。为艺术风格化之类的图形任务获取输入-输出对可能更加困难，因为所需的输出非常复杂，通常需要艺术创作。对于许多任务，比如对象变形(例如zebra<->horse，图1中上部)，所需的输出甚至没有定义。
       因此，我们寻求一种无需成对输入-输出示例就能学会在域之间进行转换的算法(图2，右侧)。我们假设在这些域之间存在某种潜在的关系——例如，它们是同一底层场景的两种不同的呈现——并试图了解这种关系。虽然我们缺乏成对样本的监督，但我们可以利用集合层面的监督: 给定X域中的一组图像和Y域中的另一组图像。我们可以训练一个映射G: X->Y，这样输出 y ^ = G (x) （x∈X）,y ^ 与y在对抗网络训练下不能彼此分开。从理论上讲,这一目标可以产生一个输出分布y^ 相匹配的经验分布 pdata (y)(一般来说,这需要随机G) [16]。最优的G将定义域X转化为定义域Y的同分布。然而，这样的转换并不能保证一个单独的输入x和输出y以有意义的方式配对——有无穷多个映射G会在y^ 上产生相同的分布。此外，在实践中，我们发现很难单独优化对抗目标: 标准程序常常导致众所周知的模式崩溃问题，即所有输入图像映射到相同的输出图像，而优化未能取得进展。
       这些问题要求为我们的目标增加更多的结构。因此，我们利用了翻译应该是“循环一致的”这一特性，也就是说，如果我们把一个句子从英语翻译成法语，然后再把它从法语翻译成英语，我们应该回到原来的句子[3]。数学上，如果我们有一个翻译器G: X->Y和另一个翻译器F: Y->X。那么G和F应该是彼此的逆，两个映射都应该是双射。我们应用这种结构，假设通过同时训练映射 G 和 F, 和添加一个循环一致性损失[64]，促使 F(G(x))≈x 和 G(F(y))≈y

最低0.47元/天解锁文章