图像翻译/GAN:Unsupervised Image-to-Image Translation with Self-Attention Networks基于自我注意网络的无监督图像到图像的翻译

Unsupervised Image-to-Image Translation with Self-Attention Networks基于自我注意网络的无监督图像到图像的翻译

论文下载
开源代码

0.摘要

无监督图像翻译的目的是在给定未配对训练数据的情况下,学习从源域到目标域的转换。在基于GANs的无监督图像到图像的翻译中,一些最先进的作品取得了令人印象深刻的成果。与样式转换等局部纹理映射任务相比,它无法捕获域之间强烈的几何变化,或者对复杂场景产生不令人满意的结果。最近,SAGAN[35]表明,自我注意网络比卷积型GAN产生更好的结果。然而,自我注意网络在无监督图像到图像翻译任务中的有效性尚未得到验证。在本文中,我们提出了一种具有自我注意网络的无监督图像到图像的转换,其中长距离依赖不仅有助于捕获强烈的几何变化,而且还可以使用所有特征位置的线索生成细节。在实验中,我们定性和定量地证明了该方法相对于现有的无监督图像到图像翻译任务的优越性。

1.概述

在计算机视觉和图形学中,有许多图像到图像的转换任务,包括修复[17]、[26]、超分辨率[10]、[19]、着色[36]、[37]、样式转换[11]、[15]、[25]等等。这一跨领域的图像到图像的翻译主题已经成为研究人员关注的主要问题。
在许多情况下,给定一个成对的数据集,可以通过条件图像转换来解决问题[18]、[22]、[30]。然而,获得成对样本既困难又昂贵。此外,有些情况下无法进行监督。
无监督图像翻译的目标是在给定未配对训练数据的情况下,学习从源域到目标域的转换。最近的工作在基于GANs的无监督图像到图像翻译方面取得了令人印象深刻的结果[1]、[8]、[16]、[20]、[23]、[27]、[29]、[34]、[38]。它在很大程度上可以分为两种类型。第一个是样式转换任务。这个问题是在保持内容或几何结构等高级信息的同时,更改颜色或纹理等低级信息。风格转移和基于条件GANs的方法在这一研究领域取得了很好的结果。
第二个是对象变形任务。与样式转换任务不同,此任务侧重于更改高级信息,同时保留低级信息。CycleGAN[38]是最具代表性的无监督图像翻译方法,由于专门用于风格转换的网络结构,它未能改变高层语义。
为了解决无监督图像到图像的转换问题,第23单元提出了共享潜在空间假设。它假设不同域中的一对对应图像可以映射到共享潜在空间中的同一潜在代码。MUNIT[16]提出了一种多模态无监督图像到图像的翻译框架。
为了实现多对多跨域映射,它通过分解跨域的共享潜在空间和样式代码的每个特定于域的部分,减轻了单元中完全共享潜在空间的假设。UNIT和MUNIT在实验中展示了从一个以头部为中心的裁剪数据集中翻译出的令人印象深刻的动物图像。当训练图像数据集在空间上不规范时,由于共享语义部分之间缺乏对应关系,使得问题更加困难。
在我们的实验中,我们发现这些方法在具有强烈几何变化的各种图像到图像的翻译应用中常常失败。最近,萨根(SAGAN)[35]表明,自我注意模块是卷积的补充,有助于建模跨图像区域的长距离、多层次依赖关系。尽管自我注意模块在无条件GANs中取得了成功,但自我注意模块在无监督图像到图像翻译中的有效性尚未得到验证。
在本文中,我们提出了一个具有自我注意网络的未配对图像到图像的翻译模型,该模型允许对具有强几何变化的图像翻译任务进行长距离依赖建模。在实验中,我们展示了该方法相对于现有的无监督图像到图像翻译任务的优越性。

2.方法

在这里插入图片描述

图1:自注意力网络。[35] ⊗ 表示矩阵乘法。

在这里插入图片描述

图2:网络自动编码器模型的体系结构

2.1.基于自我注意网络的非配对图像到图像的翻译

我们提出了一种具有自关注网络的无监督图像到图像翻译模型,该模型允许对具有强几何变化的图像翻译任务进行长距离依赖建模。结合自我注意,生成器可以翻译图像,其中每个位置的精细细节都与图像遥远部分的精细细节仔细协调。此外,鉴别器还可以更准确地对全局图像结构施加复杂的几何约束。
在本文中,我们的网络架构是通过将多个自注意力模块组合到多模态无监督图像到图像转换(MUNIT)模型的生成器和鉴别器中来设计的。
为了探索所提出的自我注意机制的效果,我们通过在生成器和鉴别器的不同阶段添加自我注意机制来构建几个SAGAN。对于生成器,自我关注层分别放置在编码器中的下采样层之前和解码器中的上采样层之前。对于鉴别器,它添加在下采样层之前。图2显示了具有自我关注网络的自动编码器模型的体系结构

2.2.损失函数

我们模型的全部目标包括双向重建损失函数和对抗损失函数。与16中的相同,我们的模型由每个域的编码器Ei和解码器Gi组成。每个自动编码器的潜在代码分为内容代码ci和样式代码si,其中(ci,si)=(Eci(xi),Esi(xi))=Ei(xi)。可以通过交换编码器-编码器对来执行图像到图像的转换。
双向重建损失
双向重建损失包括图像重建损失和潜在重建损失。图像重建损耗公式如下:
在这里插入图片描述
我们应该能够在编码和解码后重建从数据分布中采样的图像。
潜在重建损失公式如下:
在这里插入图片描述
给定潜在分布中的潜在代码(内容和样式),我们应该能够在解码和编码后重建它。
对抗性损失
对抗性损失公式如下:
在这里插入图片描述
为了匹配翻译域和目标域之间的分布,我们采用了对抗性损失。
整体目标
总损失公式如下:
在这里插入图片描述

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值