[论文翻译] Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks

最新推荐文章于 2023-08-06 22:42:26 发布

xiongxyowo

最新推荐文章于 2023-08-06 22:42:26 发布

阅读量241

点赞数

分类专栏：杂文

原文链接：https://openaccess.thecvf.com/content_iccv_2017/html/Zhu_Unpaired_Image-To-Image_Translation_ICCV_2017_paper.html

版权

划水

杂文专栏收录该内容

74 篇文章 14 订阅

订阅专栏

[论文地址] [代码] [ICCV 17]

只翻译方法部分

III. Formulation

我们的目标是在给定的训练样本 $\left\{x_{i}\right\}_{i=1}^{N} \in X$ 和{ $\left\{x_{j}\right\}_{j=1}^{M} \in X$ 之间学习两个域 $X$ 和 $Y$ 的映射函数。如图3(a)所示，我们的模型包括两个映射 $G : X \to Y$ 和 $F : Y \to X$ 。此外，我们引入了两个对抗性判别器 $D_X$ 和 $D_Y$ ，其中 $D_X$ 旨在区分图像 ${x\}$ 和翻译的图像 ${F(y)\}$ ；同样， $D_Y$ 旨在区分 ${y\}$ 和 ${G(x)\}$ 。我们的目标包含两种：对抗性损失(Adversarial Loss)，用于将生成的图像分布与目标域的数据分布相匹配；以及循环一致性损失(Cycle Consistency Loss
)，以防止学到的映射 $G$ 和 $F$ 相互矛盾。

Adversarial Loss

我们将对抗性损失应用于两个映射函数。对于映射函数 $G : X \to Y$ 及其判别器 $D_Y$ ，我们将目标表达为： $\mathcal{L}_{\text{GAN}}(G,\ D_{Y},\ X,\ Y) = \mathbb{E}_{y\sim p_{\text{data}}(y)}[\log D_{Y}(y)]\\ +\mathbb{E}_{x\sim p_{\text{data}}(x)}[\log(1- D_{Y}(G(x))]$ 其中 $G$ 试图生成与领域 $Y$ 的图像相似的图像 $G (x)$ ，而 $D_Y$ 旨在区分翻译后的样本 $G (x)$ 和真实的样本 $Y$ 。我们为映射函数 $F : Y \to X$ 及其判别器 $D_X$ 也引入了类似的对抗性损失：即 $L_{GAN}(F, D_X, Y, X)$ 。

Cycle Consistency Loss

理论上，对抗性训练可以学习映射 $G$ 和 $F$ ，产生与目标域 $Y$ 和 $X$ 分布相同的输出(严格来说，这需要G和F是随机的函数)。然而，在容量足够大的情况下，网络可以将同一组输入图像映射到目标域的任何随机排列的图像上，其中任何一个学习到的映射都可以引起与目标分布匹配的输出分布。为了进一步减少可能的映射函数的空间，我们认为学到的映射函数应该是循环一致的：如图3b所示，对于来自域 $X$ 的每个图像 $x$ ，图像翻译循环应该能够将 $x$ 带回原始图像，即 $x \to G (x) \to F (G (x)) \approx x$ 。我们把这称为前向循环一致性。同样，如图3c所示，对于来自域 $Y$ 的每个图像 $y$ ， $G$ 和 $F$ 也应该满足后向循环一致性： $y \to F (y) \to G (F (y)) \approx y$ 。我们可以用循环一致性损失来激励这种行为。 $\mathcal{L}_{\text{cyc}}(G,\ F)=\mathbb{E}_{x\sim p_{\text{data}}(x)}[\Vert F(G(x))-x \Vert_{1}]\\ +\mathbb{E}_{y\sim p_{\text{data}}((y)}[\Vert G(F(y))-y \Vert_{1}].$ 在初步实验中，我们还尝试用 $F (G (x))$ 和 $x$ 之间以及 $G (F (y))$ 和 $y$ 之间的对抗性损失来代替这个损失中的L1准则，但没有观察到性能的改善。由循环一致性损失引起的行为可以在arXiv版本中观察到。

Full Objective

我们的整体目标函数为： $\mathcal{L}(G,\ F,\ D_{X},\ D_{Y})=\mathcal{L}_{\text{GAN}}(G,\ D_{Y},\ X,\ Y)\\ +\mathcal{L}_{\text{GAN}}(F,\ D_{X},\ Y,\ X)\\ +\lambda \mathcal{L}_{\text{cyc}}(G,\ F)$ 其中 $\lambda$ 控制两个目标的相对重要性。我们的目标是解决： $G^{\ast},\ F^{\ast}= \arg\min_{G,\ F}\ \max_{D_{x},\ D_{Y}}\mathcal{L}(G,\ F,\ D_{X},\ D_{Y})$ 请注意，我们的模型可以被看作是训练两个"自动编码器"：我们将一个自动编码器 $F \circ G : X \to X$ 与另一个 $G \circ F : Y \to Y$ 共同学习。然而，这些自动编码器都有特殊的内部结构：它们通过一个中间表示将图像映射到自身，这个中间表示是图像在另一个领域的翻译。这样的设置也可以看作是"对抗性自动编码器"的一个特例，它使用对抗性损失来训练自动编码器的瓶颈层以匹配一个任意的目标分布。在我们的例子中， $X \to X$ 自动编码器的目标分布是领域 $Y$ 的分布。在第5.1.3节中，我们将我们的方法与完整目标的消减进行比较，并根据经验表明，这两个目标在获得高质量的结果中发挥着关键作用。

xiongxyowo

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
[论文翻译] Unpaired Image-To-Image Translation Using Cycle-Consistent Adversarial Networks

[论文地址] [代码] [ICCV 17]只翻译方法部分我们的目标是在给定的训练样本{xi}i=1N∈X\left\{x_{i}\right\}_{i=1}^{N} \in X{xi}i=1N∈X和{{xj}j=1M∈X\left\{x_{j}\right\}_{j=1}^{M} \in X{xj}j=1M∈X之间学习两个域XXX和YYY的映射函数。如图3(a)所示，我们的模型包括两个映射G:X→YG: X→YG:X→Y和F:Y→XF: Y→XF:Y→X。此外，我们引入了两个对抗性判别器DXD_XD
复制链接

扫一扫