论文笔记-Unsupervised Sketch-to-Photo Synthesis

  • 论文信息

    • 标题: Unsupervised Sketch-to-Photo Synthesis
    • 作者:Runtao Liu, Qian Yu, Stella Yu
    • 机构:北京大学;北航;UCB;ICSI
    • 出处:ECCV 2020
  • 代码链接

    • None
  • 论文主要贡献

    • 提出第一个两阶段的无监督模型,可以基于手绘草图生成各自不同、和草图结构吻合、风格真实的图像
    • 引入自监督学习目标和注意力模块用于处理草图中的抽象和风格差异问题
    • 模型不仅可以增强基于草图的图像获取,而且能够作为除了图像边缘图之外的自动草图生成,用于捕获人类视觉感知信息
  • 论文要点翻译

    • 摘要
      • 在给定一张手绘物体框架草图的时候,人类能够将这个没有空间和几何信息,更没有颜色和视觉细节信息的框架草图恢复成一张真实的图像
      • 本文是仪狄格研究无监督的草图到真实图像合成的研究,通过不成对的草图、真实图像的数据集,训练时草图没有对应的真实图像信息
      • 现有的工作智只处理了分割变化、空间上的变化分解、根据边缘对齐的线图合成对应图像或者是将同一模态的数据进行形状转换
      • 本文将无监督的草图到完整图像的填充过程看成是一个两阶段的翻译任务:(1)从草图生成灰度图;(2)恢复灰度图的颜色细节信息
      • 本文还设置了自监督的去噪目标,集成了注意力模块处理抽象和风格变化
      • 实验结果合成的图像与原草图吻合且具有真实图像的特征,在实际运用中可以用于基于草图的图像获取,方法还有其他效果,能够作为一个通用的有前景的草图生成器用于捕获图像边缘图之外的人类的视觉感知信息
    • 引言
      • 草图是一种直观有效的视觉表达方式,已经有关于草图识别、草图划分、基于草图的图像和视频收集等研究,本文研究在给定草图的情况下得到真实细节图像的问题,输入时不成对的草图和真实图像数据几何
      • 草图到图像的合成问题主要挑战在于:(1)由于草图通常是业余人员绘制的,因此草图和实际图像之间不对齐,且存在空间和几何上的变形,因此将草图转换为实际图像需要进行校正变形;(2)草图是单色的,缺乏视觉细节信息,一般来说,草图只给出了物体的边缘信息和内部的关键标志信息,为合成实际图像,需要在草图中适当地添加阴影、纹理、色彩等细节信息
      • 实际上,校正变形并不容易,因为线条只是说明大概的形状和位置信息,颜色和纹理根据不同实例而有所差异,全局的(例如大小比例)和局部的(例如颜色、标志)信息都可能不同。此外,加上颜色细节也并不容易,因为一张草图可能对应到许多种不同的彩色图像,而合成的图像需要是各自不相同且具有真实性的
      • 现有的工作针对这两个挑战,主要从形状或者颜色两个中一个角度出发:(1)处理形状的重新配置信息的图像合成过程使得在相同的视觉域进行图像变换,例如:将一张狗的图片转为猫的,其中,彩色图像中的颜色细节是兼容的;(2)草图是线图的一种夜里,而计算机视觉中研究最多的线图是从图像中自动提取的边缘图,这样的基于边缘图的线条到图像的钻换不需要有草图的空间变形,可以直接使用数据进行合成。实际上,面对同时需要进行草图变形和颜色转换的场景,现有的方法都无法完成草图到图像的转换
      • 本文主要将草图到真实图像转换的任务分解成两个独立的任务,两个阶段的任务首先将草图进行几何形状翻译,得到一张灰度图,再利用灰度图进行细节的色彩内容填充。(1)形状转换阶段输入草图,将草图转为灰度的图像,训练数据是不成对的草图数据集和图像数据集,通过这个阶段减少几何形变;(2)内容增强阶段主要学习如何将灰度信息填充为彩色细节,包括增加确实的纹理、阴影等信息,这个阶段通常会有可选的参照图像
      • 本文的模型将草图和图像联系起来,可以直接应用到基于草图的图像获取中,模型还可以将输入的图像转为草图,得到的草图信息包含除了外部边缘信息之外的关键线条信息,这些自动的草图结果可以在更多高级的计算机视觉场景用户交互设备中使用
    • 相关工作
      • 基于草图的图像合成:草图识别、基于草图的图像获取;基于深度学习的草图到图像的合成(SketchyGAN)、基于不完整边缘或者草图的多类别图像生成
      • GAN:CycleGAN、UNIT、MUNIT
    • 方法(两阶段草图到图像合成)
      • 和图像相比,草图空间信息不精确、缺乏颜色细节,本文从草图到图像的合成主要通过两个阶段的任务进行:(1)将变形的草图转换为灰度图像,(2)将灰度图像填充缺失的纹理、阴影等信息用于将灰度图转为彩色图像
      • 无监督的学习包括两个数据集,n 张草图 { S 1 , . . . , S n } \{S_1,...,S_n\} {S1,...,Sn} 和 m 张彩色图像 { I 1 , . . . , I m } \{I_1,...,I_m\} {I1,...,Im} 及对应的灰度图像 { G 1 , . . . , G m } \{G_1,...,G_m\} {G1,...,Gm}
      • 形状转换: S → G S \to G SG
        • 目标:将草图进行形状变形的校正,模型输入是不成对的,主要因为:(1)成对数据不易采集;(2)由于草图和真实图之间形状难对齐,使用强监督信号不利于模型训练
        • 映射 T : S → G T: S \to G T:SG T ′ : G → S T^{'}: G \to S T:GS 利用循环一致性 S ≈ T ′ ( T ( S ) ) S \approx T^{'}(T(S)) ST(T(S)) G ≈ T ( T ′ ( G ) ) G \approx T(T^{'}(G)) GT(T(G)) 进行模型训练,两个映射分别对应一个编码器-解码器结构,并结合两个判别器进行对抗训练
        • 输入的草图可能有不同层次的抽象和线条风格,草图中包含商标或者噪声细节等都无法被之前的 cycleGAN 模型处理,为了解决这些变体数据,本文引入两个策略使得模型仅仅提取风格无关的信息:(1)在草图中加入多余的噪声信息用于增强数据集,并引入自监督目标;(2)引入注意力模块帮助检测不发散区域
        • (1)噪声草图生成:草图中分为复杂的和发散的两种噪声草图,本文识别密集的标签,通过建立噪声掩膜池,随机从噪声掩膜中选取掩膜用于人工合成复杂的噪声草图;对于发散草图则主要是通过添加随机的不同草图的 patch 进行无关细节的模拟
        • (2)自监督目标:引入自监督目标帮助合成噪声草图,对于合成的噪声草图,重建的目标在于重新得到最开始的没有噪声的干净草图: L s s ( T , T ′ ) = ∥ S − T ′ ( T ( S n o i s e ) ∥ 1 L_{ss}(T,T^{'})=\|S-T^{'}(T(S^{noise})\|_1 Lss(T,T)=ST(T(Snoise)1
        • (3)注意力模块:除了自监督,引入注意力模块用于识别发散的商标区域,由于大部分这样的区域是空白的,区域的激活图比其他区域强,因此可以定位这些区域,并相应地绕过: f f i n a l ( S ) = ( 1 − A ) ⨀ f ( S ) f_{final}(S)=(1-A)\bigodot f(S) ffinal(S)=(1A)f(S)
        • 总体学习目标:
        • min ⁡ T , T ′ max ⁡ D G , D S λ 1 ( L a d v ( T , D G ; S , G ) + L a d v ( T ′ , D S ; G , S ) ) + λ 2 L c y c l e ( T , T ′ ; G , S ) + λ 3 L i d t ( T , T ′ ; S , G ) + L s s ( T , T ′ ; S n o i s e ) \min_{T,T^{'}}\max_{D_G,D_S} \lambda_1(L_{adv}(T,D_G;S,G)+L_{adv}(T^{'},D_S;G,S)) + \lambda_2 L_{cycle}(T,T^{'};G,S)+\lambda_3L_{idt}(T,T^{'};S,G)+L_{ss}(T,T^{'};S^{noise}) minT,TmaxDG,DSλ1(Ladv(T,DG;S,G)+Ladv(T,DS;G,S))+λ2Lcycle(T,T;G,S)+λ3Lidt(T,T;S,G)+Lss(T,T;Snoise)
      • 内容增强: G → I G \to I GI
        • 对灰度图像 G 进行色彩增强,得到颜色图像 I,由于单色的草图中有许多种上色方案,模型可以使用一张参考图像作为上色的依据指导模型进行上色
        • 内容增强网络 C 实现为编码器 E 和解码器 D,给定输入的灰度图像 G,模型得到彩色图像,输入和输出图像在 CIE Lab 色彩空间应当是一直的,因此使用自监督的密度损失 L i t ( C ) = ∥ G − L a b ( C ( G ) ) ∥ 1 L_{it}(C)=\|G-Lab(C(G))\|_1 Lit(C)=GLab(C(G))1 训练模型,结合判别器 D I D_I DI 辅助增强生成数据的图像真实性
        • 为了改进输出的多样性,本文引入条件模块,接受参考图像作为指导,根据 AdaIN,将风格信息作为特征图的统计信息进行调整,E 输入灰度图像 G 生成特征图 x = E ( G ) x=E(G) x=E(G),x 的均值和方差根据参考特征图 x r e f = E ( R ) x_{ref}=E(R) xref=E(R) 进行调整,生成新的特征图 x n e w = A d a I N ( x , x r e f ) x_{new}=AdaIN(x,x_{ref}) xnew=AdaIN(x,xref),其中 A d a I N ( x , x r e f ) = σ ( x r e f ) ( x − μ ( x ) σ ( x ) ) + μ ( x r e f ) AdaIN(x,x_{ref})=\sigma(x_{ref})(\frac{x-\mu(x)}{\sigma(x)})+\mu(x_{ref}) AdaIN(x,xref)=σ(xref)(σ(x)xμ(x))+μ(xref)
        • 最终的训练目标:
        • min ⁡ C max ⁡ D I λ 4 L a d v ( C , D I ; G , I ) + λ 5 L i t ( C ) + λ 6 L s t y l e ( C ; G , R ) + λ 7 L c o n t ( C ; G , R ) \min_{C}\max_{D_I}\lambda_4L_{adv}(C,D_I;G,I)+\lambda_5L_{it}(C)+\lambda_6L_{style}(C;G,R)+\lambda_7L_{cont}(C;G,R) minCmaxDIλ4Ladv(C,DI;G,I)+λ5Lit(C)+λ6Lstyle(C;G,R)+λ7Lcont(C;G,R)
  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
无监督的多源域自适应是指在没有访问源数据的情况下进行的域自适应方法。为了解释这一概念,首先需要了解两个关键术语的含义:域自适应和多源。 域自适应是指在机器学习和数据挖掘中,将模型从一个域(即数据的分布)迁移到另一个域的过程。域自适应的目标是使模型在目标域上具有更好的性能,而不需要重新训练或收集目标域的数据。 多源是指使用来自多个源领域的数据来进行域自适应。这种情况下,我们有多个源域的数据,但没有目标域的数据。这可能是因为目标域的数据很难收集、昂贵或没有权限访问。 在无监督的多源域自适应中,我们试图使用多个源域的数据来进行迁移学习,从而在没有目标域数据的情况下提高目标域上的性能。这个问题是非常具有挑战性的,因为我们没有标签的目标域数据来指导模型的训练。 一种常见的方法是使用领域间的分布差异来进行特征学习。例如,可以使用深度神经网络来学习源域和目标域之间的有用特征。通过最小化源域和目标域之间的距离,我们可以使网络学习到一组在多个域上通用的特征表示。 另一个方法是使用领域适应的损失函数。这种损失函数通过最大化源域和目标域之间的相似性,或最小化它们之间的差异,来迫使模型在目标域上有更好的性能。 总的来说,无监督的多源域自适应是一种在没有目标域数据的情况下使用多个源域数据进行迁移学习的方法。它可以通过学习通用特征或使用领域适应的损失函数来提高目标域上的性能。这种方法对于许多现实世界的情况是非常有用的,例如在医疗图像诊断和自然语言处理等领域中。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值