CycleGAN论文学习笔记_循环一致性的作用-CSDN博客

本文链接：https://blog.csdn.net/m0_49663564/article/details/126359735

CycleGAN是一种无需配对图像的图像转译方法，通过循环一致性的损失函数解决未配对数据的问题，防止模式崩溃。该方法在颜色和纹理转换上表现出色，但对几何形状变化处理不佳，且缺乏高级语义理解和三维信息。网络结构包括卷积、残差块等，使用实例归一化和L2范数损失。尽管存在局限，CycleGAN在多种图像风格迁移任务中展现出广泛应用潜力。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks》CycleGAN论文学习笔记

B站同济子豪兄精读视频

摘要

图像转译是计算机视觉和图形学的关键问题，其目标是利用像素级对齐对应的图像，学习出一种输入图像和输出图像的映射关系。目前的问题：然而，对于许多任务而言，对齐的训练数据是难以获取的，创新点：所以提出了一种，无需配对图像（unpaired image）就能实现源域和目标域之间的迁移。

生成器 $G$ 负责根据 $X$ 生成 $Y$ ，由 $G (x)$ 生成的假 $Y$ 要尽量让判别器难以区分。目前的问题：如果只用单一对抗网络来生成的话，可能会导致不可控制（under constrained）的情况，创新点：所以提出了循环一致性损失（cycle-consistency loss），即：设计第二个生成器 $F$ ，再让 $Y$ 转回 $X$ ，尽量让 $F (G (X))$ 与原图 $X$ 更接近。

结果展示：定性(Qualitative)和定量( Quantitative)结果都表明非常好，适用范围广泛等等。

核心内容

在这里插入图片描述
上图左侧就是配对型训练数据和效果，完成线条轮廓转译为鞋子的功能；右侧就是非配对型训练数据和效果，完成两个域之间的迁移（Domain Adaptation）。

以上图右侧的画风迁移为例，CycleGan的示意图如下所示：
CycleGan示意图
其中 $X$ 域中包含 $N$ 张图像， $x\sim p_{data}(x)$ 表示 $X$ 域中的图像服从 $X$ 的数据分布， $Y$ 域中包含 $M$ 张图像，表示 $Y$ 域中的图像服从 $Y$ 的数据分布。

生成器 $\to Y$ 对应的判别器为 $D_Y$ ；生成器 $\to X$ 对应的判别器为 $D_X$ 。判别器的输出都是0至1的标量，越接近真图像输出概率越接近1。

这两个对抗网络各自都对应一个对抗损失（adversarial losses）【详细的对抗损失概念与定义可以看Gan论文学习笔记】，还包含循环一致性损失函数（cycle consistency losses）【这也是CycleGan论文的创新点】。

对抗损失函数

循环一致性损失的作用：1、使得生成器生成的图像扔保留原始图像的信息；2、间接实现了配对图像的转译功能；3、防止模式崩溃（mode collapse），总生成相同图像的情况。
在这里插入图片描述
$F (G (x))$ 是生成的假图像又转换回 $X$ 域的图像，与原始图像 $x$ 做L1范数，即两张图像逐个元素做差取绝对值再求和。公式的第一项称为前向循环一致性（forward cycle consistency），后一项成为反向循环一致性（backward cycle consistency）。

所以完整的损失函数就是：
在这里插入图片描述
其中可以通过 $\lambda$ 权重来控制循环一致性损失的强度。

实现细节

采用instance normalization归一化；
网络结构包括3个卷积、几个残差块、2个分数步长卷积（fractionally-strided convolutions
with stride $\frac{1}{2}$ ）；
使用了Reflection padding而非普通的Zero padding；
训练时的Batch Size为1， $\lambda$ 权重设置为10；
生成器各层激活函数主要为ReLU，判别器各层激活函数主要为LeakyReLU；
训练判别器时还会用到生成器产生的历史数据（We keep an image
buffer that stores the 50 previously created images）；
并没有使用损失函数公式中的负对数似然函数（log likelihood）形式，而是使用的最小二乘损失函数（least-squares loss），也就是L2范数。