【论文翻译】TraVeLGAN:基于转换向量的图像翻译

最新推荐文章于 2022-09-19 21:57:00 发布

besslbjwl

最新推荐文章于 2022-09-19 21:57:00 发布

阅读量551

点赞数

分类专栏：论文翻译文章标签：计算机视觉

原文链接：https://www.researchgate.net/publication/331371069_TraVeLGAN_Image-to-image_Translation_by_Transformation_Vector_Learning

版权

在这里插入图片描述
论文链接：
https://www.researchgate.net/publication/331371069_TraVeLGAN_Image-to-image_Translation_by_Transformation_Vector_Learning
代码链接：

摘要

近年来，随着基于循环一致性假设的无监督模型的成功，人们对图像到图像翻译的兴趣大大增加。这些模型的成就仅限于特定的域子集，在这些域中，这一假设产生了良好的结果，即以风格或纹理差异为特征的同质域。我们解决了图像到图像翻译的挑战性问题，其中域由高级形状和上下文定义，并且包括显著的杂乱和异构性。为此，我们引入了一种基于在孪生网络学习的潜在空间中保持域内向量变换的新型GAN。传统的GAN网络引入了一个鉴别器网络来引导生成器生成目标域的图像。在这个双网络系统中，我们添加了第三个:一个孪生网络，它引导生成器，使得每个原始图像与其生成的版本共享语义。有了这个新的三网络系统，我们不再需要用普遍存在的循环一致性约束来约束生成器。因此，生成器可以学习更复杂的域之间的映射，这些域之间的差异很大，不仅仅是样式或纹理。

1、介绍

近年来，学习将图像从一个域翻译到另一个域一直是一项备受研究的任务。当我们在每个域中有成对的图像例子时，任务被直观地定义，但是不幸的是，在许多令人关注的情况下这些例子是得不到的。随着该领域向无监督方法发展，热情也随之增长，这种方法将两个域的分布与生成性对抗网络(GANs)相匹配[18，11，32，35，26]。然而，两个域之间有无限多的映射[24]，并且不能保证一个域中的单个图像在映射后将与其在另一个域中的表示共享任何特征。

其他模型通过以各种方式正则化生成器族来解决这个不可识别性问题，包括在一些层中采用跨域权重耦合[26]和从共享嵌入空间解码[25]。到目前为止，最常见的正则化是由CycleGAN和DiscoGAN首先引入的，它迫使生成器成为彼此的逆，这就是所谓的循环一致性性质[16，39，20，31，27，2，9，4，37]。最近的发现表明，能够在整个数据集级别反转映射不一定会导致相关的真实生成图像对的生成[23，3，11]（意思是即使能在整个数据集上实现反转映射，还是会出现翻译不真实的情况）。

生成器上的这些数据集级正则化不仅不提供单独的图像级匹配，而且通过限制生成器，它们阻止我们学习某些域可能需要的映射。之前的工作继续堆积正则化，在需要相互逆的生成器上增加限制。这些包括迫使生成器接近身份函数[39]，匹配鉴别器激活的群体统计[20]，权重共享[26]，惩罚潜在空间中的距离[31]，先前训练的模型上的感知损失[25]，或者更常见的是这些的组合。

我们引入了一种全新的方法来完成无监督域映射的任务，而不是在生成器本身上搜索另一个正则化:变换向量学习GAN(the Transformation Vector Learning GAN (TraVeLGAN)).

除了生成器和鉴别器之外，TraVeLGAN还使用第三个网络(孪生网络)来产生数据的潜在空间，以捕获表征域的高级语义。这个空间在训练期间引导生成器，通过强制生成器保留这个空间中点之间的向量运算。将原始域中的一个图像转换为另一个图像的向量必须与将该图像的生成版本转换为另一个图像的生成版本的向量相同。受自然语言空间中word2vec嵌入[14]的启发，如果我们需要通过将前景对象从左上角移动到右下角来将一个原始图像转换为另一个原始图像，那么生成器必须在目标域中生成由相同转换向量分隔的两个点。

在word2vec中，语义向量转换是从已知的单词上下文中学习潜在空间的一种方式。在TraVeLGAN中，我们训练在学习空间的同时产生这些向量。

域映射包括两个方面:(a)将给定的图像转移到另一个域，以及(b)使翻译后的图像在某些方面类似于原始图像。先前的工作用一个单独的对抗性鉴别器网络已经实现了(a)，但是试图仅仅通过限制生成器函数的类别来实现(b)。我们提出了一个单独的网络来替代上述方案，同样可以实现（b)。

TraVeLGAN与之前的工作有几个实质性的不同。
1、它完全消除了对循环一致性或耦合生成器权重或以任何方式限制生成器结构的训练需求。
2、它引入了一个单独的网络，其输出空间用于对原始图像和生成图像之间的相似性进行评分。其他工作使用了共享的潜在嵌入空间，但在两个基本方面有所不同:(a)它们的表示被迫重叠(而不是保持向量算法),以及(b)解码器必须能够以自动编码器的方式解码出嵌入空间([25]表明这实际上相当于循环一致性约束）。
3、它完全由神经网络参数化:在任何地方图像之间使用均方误差计算欧几里得距离都被认为是没有意义的。
4、它通过其潜在空间为无监督的域转移任务增加了可解释性，这解释了任何特定图像的哪些方面被用于生成其配对图像。
由于这些差异，TraVeLGAN能够更好地处理复杂、异构域之间的映射，这些域需要显著和多样的形状变化。

通过避免生成器的直接正则化，TraVeLGAN也避免了这些正则化引起的问题。例如，循环一致性可能不必要地偏爱一个容易反转的函数，而不是一个可能更连贯、稍微更难反转的函数（或者阻止我们映射到一个域，如果逆向很难学习的话）。每个生成器不仅必须学习可逆映射，而且还要求两个可逆映射是彼此的逆。此外，通过原始图像和重建图像之间的像素级均方误差来加强循环一致性:其他工作已经确定了使用像素级MSE引起的问题，例如倾向于偏向平均图像[7]。（因为mse相当于最大化一个高斯分布的似然函数，但实际中，我们的数据可能是多峰，用mse的时候相当于用一个单峰的分布拟合多峰分布，就会对多峰分布的数据进行一个平均，产生平均图像。）

我们的方法与DistanceGAN [6]的方法相似，后者在映射后保留了图像之间的成对距离。然而，它们直接在像素空间上计算距离，同时也没有保留图像之间空间的任何方向性概念。在本文中，我们演示了不在像素空间中执行此算法的重要性。

许多先前的尝试都是专门为风格转换任务而开发的，明确假设这些域的特征是低级别的像素差异(颜色、分辨率、线条)，而不是高级别的语义差异(特定对象的形状和类型、构图)[7&#

最低0.47元/天解锁文章

besslbjwl

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【论文翻译】TraVeLGAN:基于转换向量的图像翻译

摘要近年来，随着基于循环一致性假设的无监督模型的成功，人们对图像到图像翻译的兴趣大大增加。这些模型的成就仅限于特定的域子集，在这些域中，这一假设产生了良好的结果，即以风格或纹理差异为特征的同质域。我们解决了图像到图像翻译的挑战性问题，其中域由高级形状和上下文定义，并且包括显著的杂乱和异构性。为此，我们引入了一种基于在孪生网络学习的潜在空间中保持域内向量变换的新型GAN。传统的GAN网络引入了一个鉴别器网络来引导生成器生成目标域的图像。在这个双网络系统中，我们添加了第三个:一个孪生网络，它引导生成器，使得.
复制链接

扫一扫