图像翻译:UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION

图像翻译/GAN/Transformer:UVCGAN: UNET VISION TRANSFORMER CYCLE-CONSISTENT GAN FOR UNPAIRED IMAGE-TO-IMAGE TRANSLATION.UVCGAN: Unet视觉Transformer循环一致GAN,用于不配对的图像到图像的转换

论文下载
开源代码

0.摘要

图像转换在艺术、设计和科学模拟中有着广泛的应用。原始的CycleGAN模型强调通过循环一致的损失来进行一对一映射,而最近的一些作品则提倡一对多映射来增加翻译图像的多样性。考虑到科学模拟和一对一的需求,这项工作检查了是否用视觉Transformer(ViT)装备CycleGAN和使用先进的生成对抗网络(GAN)训练技术可以获得更好的性能。得出的UNet ViT周期一致GAN (UVCGAN)模型与之前在开放基准图像到图像翻译数据集、selfie2动漫和CelebA上表现最好的模型进行了比较。UVCGAN性能更好,并保留了原始图像和平移图像之间的强相关性。一项伴随消融研究表明,梯度惩罚和bert样的预训练也有助于改善。

1.概述

未配对的图像到图像的转换在两个或多个域之间映射图像,其中的图像实例不匹配。通过精确的像素到像素映射来收集数据集是困难的,而且往往是不可能的,因为大多数科学实验无法通过模拟精确地再现。与常规生成模型[1,2,3]从随机向量输入生成图像不同,图像到图像的转换来自输入图像,假设这应该是一个更容易的任务。除了在艺术和设计方面的潜在应用,我们相信图像到图像的转换将对科学模拟产生深远的影响。仿真结果可以定义为一个领域,实验数据为另一个领域,而不是用生成模型代替整个科学仿真。因此,一个图像到图像的转换模型将填补模拟-现实的空白
CycleGAN[5,6,7]模型连接两个生成对抗网络(GAN)模型,每个转换方向一个,并引入一个循环一致的损失,以加强图像在循环转换后应该看起来像自己,即转换到另一个域和回来。其他方法[8,9,10,11,12]促进了两个域之间的翻译多样性或一对多映射。最近,ACL-GAN[11]通过引入所谓的“对抗一致性损失”(分布级的自一致性损失)来放松自一致性约束。CouncilGAN[10]完全摒弃了自一致性的思想,采用了一组生成器,并且只在一个平移方向上工作。为了提高多样性,两种模型都在特征空间中注入了随机噪声。尽管这些模型在基准数据上显示出了有希望的改进,但像随机性和多样性这样的特征在许多科学应用中并不可取。问题是:新的深度学习体系结构和技术能否在周期一致损耗的情况下改善一对一的确定性翻译?
卷积神经网络(CNN)结构已成为计算机视觉任务的热门选择。在自然语言处理(NLP)领域,注意机制和Transformer结构已经超过了以前的模型,如开放基准任务中的隐马尔可夫模型和递归神经网络。与CNN相比,Transformer可以捕获自然界常见的长距离模式。变压器在计算机视觉中的应用在[13]中首次出现,而最近的其他研究表明,CNN变压器混合体可以实现更好的性能[14,15]。在这项工作中,我们将研究Transformer和GAN训练技术可以给经典CycleGAN带来多大的改进。

2.方法

在这里插入图片描述

图1:。UVCGAN示意图:a)CycleGAN,b)UNet ViT生成器,和c)逐像素ViT。

2.1.提议的网络架构:UVCGAN

类似CycleGAN的模型[5、6、7]将两个GeneratorDescriptor对交错,用于未配对的图像到图像的转换。让我们表示两个图像域,A和B。一个典型的类CycleGAN模型有两个生成器:GA→B将图像从A转换为B和GB→A将B转换为A(图1a.1)。它还有两个鉴别器:DA用于区分A中的图像和从B翻译过来的图像,DB用于区分B中的图像和从A翻译过来的图像。
UNet ViT生成器由一个UNet(16)组成,在瓶颈处有一个像素级ViT(视觉变换器)(17)(图1b)。UNet的编码路径通过减少空间维度和丰富特征维度在每个基本块(图1d)提取特征,然后将这些特征传递给解码路径。反过来,解码路径将特征转换为图像。通过预处理层,图像成为尺寸为(w0,h0,f0)的张量,编码路径将其映射到(w,h,f),其中w=w0/16,h=h0/16,f=8f0。在编码路径中的每个基本块上,宽度和高度维度减半,除第一个之外,特征维度加倍(图1b)。类似地,解码路径通过上采样和conv层序列处理从像素级ViT的输出。每个基本块的宽度和高度加倍,特征尺寸减半。前处理层由conv和LeakyReLU(整流线性单元)组成,而后处理层为1x1 conv和sigmoid。
逐像素ViT桥接编码路径的结束和UNet解码路径的开始(图1c)。ViT最初将空间维度展平,以获得维度(w×h,f)的特征矩阵,然后将其与傅立叶位置嵌入相连接[18](图1e),从而得到维度(w×h,f+fp)的特征矩阵,然后是线性层映射f+fp到fv。一个多头自我注意转换器由12个编码器块组成。与原始编码器块设计【19】不同,我们通过引入可训练的缩放参数α,采用了rezero正则化【20】。在将输出传递到解码路径之前,ViT对其进行整形以恢复其空间维度。在我们的研究中,特征尺寸f,fp,fv=384,线性扩展尺寸fh=4fv(图1f)。

2.2. 预训练和损失函数

来自Transformers(BERT)的双向编码器表示(类自监督预训练)是为下游任务初始化大型随机初始化网络的有效方法【21,22】。模型经过训练,使用逐像素的“L1损失函数”从遮罩图像预测原始未遮罩图像。这提出了一个有趣的问题:一个较小但相似的数据集,还是一个较大且多样的数据集更适合进行预培训?为了评估前者,我们使用与下游图像翻译任务相同的数据集进行预训练。对于后者,使用ImageNet[23]。我们从相同的预训练模型初始化两个CycleGAN生成器。
在这里插入图片描述
梯度惩罚损失函数(GP)
原始生成器损失函数【5】是三部分的线性组合(等式(1)),其中LGAN是对抗性损失,Lidt是identity loss,Lcyc是循环一致性损失。λidt和λcyc是相应的标度超参数。为了提高GAN训练的稳定性,我们用最小二乘(LS)GAN损失来代替LGAN【24】,并在鉴别器损失中添加梯度惩罚【25,26】(等式(2))。我们使用了[27]建议的梯度惩罚项的一种形式,具有可调的λGP和γ超参数。训练CycleGAN涉及传统的两步minimax博弈[1],其中鉴别器尝试最小化Ldisc(图1.1a.2),生成器尝试最小化Lgen(图1.1a.3)。

3.实验

UVCGAN图像到图像翻译
下采样任务使用Adam优化器进行总共106次迭代的训练,学习率为10−4批次尺寸为1,在下半批次线性退火至零。我们应用了三种数据扩充:调整大小、随机裁剪和随机水平翻转。在随机裁剪图像到256×256之前,我们将Selfie2Anime的图像从256×256放大到286×286,CelebA的图像从178×218放大到256×313。
超参数搜索
通过小规模网格搜索完成,以发现性能最佳的超参数配置。我们的实验表明,当使用LSGAN-GP(λGP=0.1,γ=100)损失函数对UVCGAN进行训练,并且在执行下游图像翻译的相同数据集上对生成器进行预训练时,可以获得最佳性能。CelebA和Selfie2Anime的最佳λcyc略有不同,分别为5和10,λidt保持在λcyc的一半。虽然我们也尝试了Wasserstein-GAN-GP缺失,但它对超参数更敏感,产生的结果总体上更差。LSGAN与GP结合的有效性与[26]中的发现相呼应。更多训练详细信息可以在开源存储库中找到【32】。

  • 0
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值