简单翻译Image-to-image Translation via Hierarchical Style Disentanglement

最近,基于深度学习的方法已经实现在图像到图像的翻译领域取得了可喜的成果。 早期的Works [56,50,26,43]学习了两个领域之间的确定性映射,这引起了两个紧急问题:
翻译以多个标签为条件的输入,并且生成具有多种样式的多样化输出。 前者
被称为多标签任务,而后者被称为多样式(或多模式)任务。 对于多标签任务,
方法[5、13、25、47]将标签合并到翻译器中。 对于多样式任务,方法[18、23、1、57]将从高斯噪声中提取的潜在代码合并到翻译者。 这些任务的最新统一解决方案可以是
分为两类。 (一世)。 作品[41,45,51,24]通过将与目标标签关联的样式代码注入到生成器中来学习共享样式。 共享的样式代码在未更改标签的情况下不会对源图像产生明显影响,如图3(a)所示。(ii)。 StarGANv2 [6]通过使用目标标签索引映射的样式代码来学习混合样式。 它继续使用StarGAN [5]的假设,即图像域是共享相同标签的图像集。 翻译经常涉及不必要的操作,例如更改面部特征和影响背景,如图3(b)所示。 此外,他们无法独立学习刘海,眼镜和发色的各自样式。 这些无法控制的翻译严重限制了它们的实际使用。
我们提出了一个新颖的框架,称为“层次样式”解开,解决了以上限制。 我们注意到
大多数标签注释之间的一般独立性和排他性。 例如,在CelebA中,原始二进制文件
标签“带刘海”和“带眼镜”是独立的,而“金发”和“黑发”是排他性的。 因此,如图1所示,我们组织了原始标签分为分层结构,包括独立的标签和专有属性。 标签代表不同根据属性,每个图像都被重新标记为每个标签的属性之一。 例如,根据标签“眼镜”,图片的属性可以是“有”或“没有”。 因此,多标签问题分为两个子任务:多属性任务,它将标签转换为多个可能的属性; 多标签任务,可同时操作多个标签。 但是,人为注释的属性不能清晰地表示图像在标签中的表现形式。 在本文中,我们采取图像在标签中的清晰表现与标签相关样式。 与标签相关的样式,已识别为标签和属性,为多种翻译。 例如,标签“眼镜”的样式可以区分不同的眼镜,例如近视眼镜,太阳镜和图像中的老花镜,没有监督的注释。 我们介绍了不同的模块来生成,提取和有效地处理未纠缠的对象与标签相关的样式。 在循环翻译路径中,我们始终优化生成和提取的样式,以真实,准确地处理图像。 通过循环一致性和样式一致性,可以确保生成和提取的样式包括标签的详细表现形式。 为了保证解脱,我们介绍一个使用注意遮罩的本地翻译器避免全局操纵; 以及与标签无关的条件标识符,该标识符在注释,以防止这些隐式条件被翻译操纵。 在图2中,我们显示了一些我们在CelebA-HQ上选择方法的结果。
我们的贡献包括:
•我们建议HiSD通过将标签组织成一个层次结构来解决最近的多标签和多样式图像到图像翻译方法中的问题,其中独立标签,专有属性和
纠缠的样式从上到下分配。
•要使标记和属性识别出样式,
我们会仔细地重新设计模块,阶段和目标。 对于无监督的样式分离,我们引入了两种体系结构改进,以避免
全局操作和在翻译过程中要操作的隐式属性。
•我们进行了广泛的实验以证明我们模型的有效性。
2.相关工作
生成对抗网络。 GAN [8]已获得显着的结果。经过训练,发电机可以产生类似于真实样本的输出。最近,许多作品优化了训练的稳定性GAN [30,9,34]或释放GAN在不同区域的潜力[39,22,40]。具体来说,我们使用多任务GAN [32,27]使输出满足目标属性
和有条件的GAN [33],以确保与标签无关在翻译过程中条件仍然令人满意。
图像到图像的翻译。图像到图像翻译由于其广泛的实用性已引起越来越多的关注使用,例如着色[52],超分辨率[46],语义合成[3]和域自适应[15]。我们的框架专注于图像到图像翻译的广泛概念,以共同解决多标签[5,13,25,47]和多样式[18,23,1,57]问题,并克服了以前的联合框架的缺点[41] ,45,51,24,6,48,55,49,10]。标签特定的样式。标签特定样式学习清晰特定二进制标签的体现,这是一个特殊的标签相关样式的案例。但是,它忽略了某些标签的排他性。早期作品[48,55,37,4,2]使用单值或多值样式代码,而最近的方法[49,10]使用特征图来表示详细信息表现。然而,由于姿势可变特性,它们遭受不良的视觉质量或未对准的图像的困扰仅映射和支持参考指导的任务。
3.方法
可以将组织好的标签定义为分层标签结构体。 对于单个图像,其标签i的属性{1,2,…,N}可以定义为j∈{1,2,…,Mi},其中N是标签数,Mi是标签I的属性数。但是,属性j不能表示详细信息图像中标签i的表现形式,我们称为标签相关样式si,j∈Si,j。 类似地,我们用xi,j∈Xi,j表示具有标签i的属性j的图像。
我们的框架旨在生成,提取和操作图像中与标签相关的样式。每个目的都对应一个特定的模块。有两种方法用于操作的样式代码,如图5所示。对于
在潜伏的任务中,样式代码是由映射器模块(M)。给定一个潜在码z〜N(0,1)
标签i的属性j,M生成样式代码si,j = Mi,j(z)。对于参考指导的任务,样式代码由提取器模块(F)提取。给定一个图像xi,j和标签i,F学习提取样式代码si,j = Fi(xi,j)。然后,生成或提取的样式是用于指导操纵。但是,效率低下如果我们在处理多个标签时将操作直接应用于图像。相反,用x表示源图像,我们首先通过编码器将其转换为其直接特征模(E),由e = E(x)给出。然后,为了操纵该功能,我们介绍了翻译器模块(T)。给定特征e和标签相关的标签样式代码si,ji,T学习通过以下方式操纵功能的特定标签Ti(e,si,j)。在每次翻译中,功能都可以通过多次翻译。要获得翻译的图像,
我们介绍了生成器模块(G),用于将翻译后的特征e转换为图像。翻译后的图像给出
由x = G(〜e)。我们还介绍了鉴别器模块(D),以根据标签和标签确定图像是否
属性,是真实的还是不真实的。值得注意的是,对于需要标签或属性作为输入,我们选择使用它们来索引模块特定层的选择,而不是而不是将它们注入模块(例如,使用单个模块Mi,j(·)而不是带有标签i的单个M(·,i,j)并将属性j作为输入)。
正式地,在测试过程中,源图像x首先是编码为其直接功能
式子1
其次,将源特征操纵为多个标签i1,…,il的目标属性j1,…,jl,其中l是可操纵标签的数量,对于k = 1,…,l,我们将特征一一输入到特定的翻译器中。
式子2
sik,jk可以是潜伏引导样式Mik,jk(z)或参考引导样式Fik(xik,jk)。 最后,令e〜= el,翻译后的图像由
式子3
特别是,多样式,多属性和多标签任务的测试阶段如图6所示。
训练阶段
为不同标签独立优化模块和属性,我们在每次迭代中随机采样标签i,源属性j和目标属性〜j。如图所示在图4中,给定源图像xi,j∈Xi,j,训练阶段包括:
非翻译路径。我们得到第一个重建图像x0i,j = G(E(xi,j))在这条路径中。
自翻译路径。我们得到第二次重建图片x00i,j = G(T(E(xi(j,j),si,j)),其中si,j = Fi(xi,j)是提取的源图像中与标签相关的样式代码。
循环翻译路径。在这条路中,我们首先产生与目标标签相关的样式代码si,〜j = Mi,〜j(z)。其次,我们渲染生成的样式代码si,〜j进入源图像xi,j的特征并获得翻译后的图像xi,〜j = G(T(E(xi,j),si,〜j))。最后,功能翻译的图像xi,〜j和原始提取的样式代码si,j被输入到翻译器中,我们得到第三重建图像x000i,j = G(T(E(xi,〜j),si,j))。
训练的参数
对抗目标。 我们的对抗目标方法鼓励对生成的样式和提取的样式进行现实的操作,这被定义为 xi,〜j是使用映射器M生成的样式代码的翻译图像,x是使用提取器F提取的样式代码的循环翻译的图像。此目标不仅鼓励映射器将标记特定的属性信息准确映射到 生成的标签相关样式代码,但也强制提取器从图像中提取特定于标签的属性信息。
重建目标。
非平移,自平移和循环平移路径的所有最终输出都是源图像的重建图像。 因此,我们应用了一个重建目标,使重建图像等于源图像,即
式子(5)
具体来说,前两个公式块鼓励一致性之间的特征之间,无论是通过翻译器T还是
不是。 它们对于我们的框架具有重要意义测试期间有多个标签,培训期间没有直接涉及。 这两个术语的重要性已在ModularGAN [54]中得到了证明。
最后一个公式块是循环一致性来鼓励提取的与标签相关的样式要准确,这需要
提取源代码的详细表现形式的模型图像并对其进行渲染以操纵翻译后的图像,因此
循环翻译的图像可以等于源一种(例如,模型需要提取特定样式的眼镜,这样它就可以将非眼镜翻译的图像转换回源图像)。
风格目标。 提取的翻译后的样式代码图像应该等于生成的样式代码。
所以我们介绍一下风格目标。这鼓励了生成的内容之间的一致性
并提取样式[18、23、45、24、51、6]。 一方面,它鼓励映射器M生成准确的标签相关样式代码,该代码可以由提取器F也是如此。 另一方面,它也鼓励,翻译器T充分利用样式代码和力量生成和提取的样式都可用于相机。
完整的目标。 最后,完整目标函数的优化可以写成
式子7
其中λrec和λsty是控制参数的超参数重建和风格目标的相对重要性
与对抗目标相比。 完整的目标可确保样式代码通过不必要的操作来捕获不同标签的清晰表现。
我们介绍了两个体系结构改进,以避免不必要的操作,并进一步使样式代码
毫无目标的纠缠[37,2,16]。
3.3特征翻译器
我们框架中的翻译器会影响功能而不是图像[31、38、7、35]。 为了利用标签的局部性,我们引入了一个基于特征的局部翻译器。 表示通过e的原始特征,翻译器输出2倍的
具有相同大小(即高度,宽度和e。 然后翻译的特征由
其中σ(·)是S形函数,σ(m)是一个注意点
面具。 我们的翻译器中的注意蒙版既是空间方面的,也是渠道方面的。 这种设计可以避免翻译过程中诸如背景和照明之类的全局操作,而附加计算可以忽略不计,而且没有正则化目标。
3.4。 与标签无关的条件鉴别器
对于不同的属性,隐含条件的不平衡现象广泛存在于现实世界的数据集中。在CelebA-HQ中,男性占83.3%,年龄占65.7%标签为“眼镜”的属性为“ with”的图片,而在相应的百分比中,百分比分别降低到36.0%和20.0%标签为“眼镜”的属性为“无”的图片。 鉴别器将迫使翻译操纵这些隐含条件。 我们通过注入与标签无关的条件(例如标签“男性”和“‘Young’)来区分。 表示与标签无关yi对标签i的原始图像xi,j的条件,我们将等式4替换为
式子9
因此,鉴别者将注意到不平衡现象并鼓励翻译不要操纵与标签无关的隐式条件。
4.实验
在本节中,我们进行了一系列实验以证明我们方法的有效性。在训练过程中,所有实验都是使用看不见的图像进行的。数据集。我们选择CelebA-HQ [19]作为我们的数据集,
包含30,000张带有标签注释的面部图像,例如头发的颜色,性别和眼镜的存在。 CelebA-HQ现为比原始的CelebA更具挑战性[28]。原始标签为“有刘海”,“有眼镜”,“金发”,CelebA-HQ中的“黑发”和“棕发”被组织成三个标签“头发颜色”(属性为“金发”,
“黑色”和“棕色”),“邦斯”(属性为“ with”和“不带”),“眼镜”(属性为“带”和“不带”)
用于实验。对于与标签无关的条件,我们选择避免使用“性别”和“年龄”两个主要标签,分别是“男性”和“年轻”。我们将30000张图像分割成CelebA-HQ分为3000张图像作为测试集和27000张图像作训练集。
基准
基线。 我们使用SDIT [45](具有共享样式),StarGANv2 [6](具有混合样式)和ELEGANT [49](具有共享样式)特定于标签的样式)作为我们的基准。 使用由以下人员提供的实施方式对所有基准模型进行了培训他们的作者。 对于每个标签,我们为StarGANv2训练了三个独立的模型,以避免标签域的数量成倍增加。 有关其他实施细节,请参阅到我们的补充材料。
4.1。 多样式任务
在本节中,我们评估了翻译将图片标签添加到具有不同输出的另一个属性中。 我们
分别操纵标签“ Bangs”将属性“ with”和“标记“眼镜”将“ with”归为两个示例
观点:潜在指导任务和参考指导任务。
潜伏的任务。 图7(a)提供了定性的比较竞争方法。 我们无法提供ELEGANT的结果,因为它仅具有参考指导的功能。 SDIT的视觉质量和多样性是有限的。 StarGANv2处理与标签无关的详细信息
(例如,在操作标签“ Bangs”时更改头发的颜色并将年轻女性转化为老年男性
操纵标签“眼镜”)。 我们的方法可为两个标签处理与标签相关的准确样式,具有较高的视觉质量,可满足所处理属性的多样性,并且维护与标签无关的详细信息。
参考指导任务。
图7(b)提供了竞争方法的定性比较。 在这项任务中,从参考图像中提取样式。 信息技术部无法有效地提取样式。 属性的表达来自标签的更改。 StarGANv2
提取并处理许多独特的样式(例如头发)颜色,背景和面部特征)。 ELEGANT成功提取并处理了准确的样式,但它会在左侧的最后一行中生成可见的伪像结果。 另一个限制是未对齐的转移图像无效,因为它使用了姿势变化功能表示样式的地图,而我们使用姿势不变的全局样式代码。 我们的方法将两种样式都转换为样式准确地标记。我们还进行了三个定量比较我们的方法和基准,包括:
真实性:
为了定性评估真实性,我们计算了拨针起始距离(FID)[´14]。 对于每个没有刘海的测试图像,我们将其转换为带有刘海的图像使用5种样式代码,这些样式代码是通过对潜在指导任务随机采样的潜在代码生成的,或从中提取的从带有刘海的图像中随机抽取样本用于参考指导任务。 然后,我们计算之间的平均FID翻译的图像和带有刘海的真实图像。 表格1显示了竞争方法的定量比较。 就真实性而言,我们的方法优于所有基准。
多样性。
为了定性评估多样性,使用的度量标准是学习的感知图像补丁相似度(LPIPS)[53]。 但是,它鼓励模型尽可能多地操纵图像,这在实际应用中是不希望的。 因此,我们选择使用用户研究对多样性进行定量比较。 对于每个任务,百分比是通过询问用户来确定的,与我们的方法的潜在指导结果相比,哪个多样性更可取。表1中的结果表明,基线无法获得比我们的方法更大的投票(即50%) , 意思就是用户更喜欢我们方法的多样性。
解缠
为了定性地评估标签相关样式的分离度,我们将没有刘海的年轻男性图像转换为5张有刘海的图像,并使用翻译后的图像和真正有刘海的年轻男性图像来计算平均FID距离。 此指标对仅传输与标签相关的方法提出了挑战样式并维护与标签无关的详细信息。 如果模型传输与标签无关的详细信息,例如更改性别图像之间,翻译图像之间的FID(某些女性图片)和真实图片(所有男性图片)增加。 结果表明,我们的纠缠该方法优于基线。
此外,我们还报告了网络能力的对比,这是潜在指导任务的值和参考指导任务。 结果表明,我们的方法获得最平衡的性能。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值