Unified Generative Adversarial Networks forControllable Image-to-Image Translation可控图像到图像翻译的统一生成对抗网络

代码可在https://github.com/Ha0Tang/GestureGAN上获得。

一、概念


生成对抗网络(Generative Adversarial Networks,GANs):是一种深度学习模型,由生成器(Generator)和判别器(Discriminator)两部分组成,它们相互对抗、相互学习,用于生成逼真的数据样本

下面是统一生成对抗网络(Unified Generative Adversarial Networks)的一般步骤和原理:

步骤:

  1. 数据准备

    • 收集并准备训练数据集,确保数据集具有代表性和多样性。
  2. 生成器网络

    • 定义生成器网络,通常使用卷积神经网络(CNN)或全连接神经网络(DNN);
    • 生成器的目标是从随机噪声中生成逼真的数据样本。
  3. 判别器网络

    • 定义判别器网络,也可以是CNN或DNN;
    • 判别器的目标是区分生成器生成的假样本和真实数据样本。
  4. 损失函数

    • 使用对抗损失函数,使生成器尽可能生成逼真的样本,同时使判别器难以区分真假样本;
    • 通常使用最小化生成器和最大化判别器的损失函数。
  5. 训练过程

    • 交替训练生成器和判别器,使它们相互对抗、相互学习;
    • 通过反向传播算法更新生成器和判别器的参数。
  6. 评估生成结果

    • 使用生成器生成的样本进行评估,可以通过视觉效果、数值指标等来评估生成器的性能。

原理:

统一生成对抗网络通过优化生成器和判别器的目标函数,使生成器生成的样本尽可能逼真,同时使判别器无法准确区分真实和生成的样本。这种对抗训练的方式可以帮助生成器学习到数据分布的特征,从而生成高质量的数据样本。统一生成对抗网络的训练过程是一个动态的博弈过程,生成器和判别器在训练过程中不断调整参数,相互博弈,最终达到一个动态平衡点。生成对抗网络已经在图像生成、风格迁移、语音合成等领域取得了显著的成果,并在深度学习领域得到广泛应用。

二、摘要


我们提出了一种统一的生成对抗网络(GAN)用于可控的图像到图像转换,即在可控结构的指导下,将图像从源域转移到目标域

除了参考图像的条件外,我们还展示了模型如何基于可控结构(如类别标签、对象关键点、人体骨架和场景语义图)生成图像。所提出的模型由一个单一的生成器和一个判别器组成,它们以条件图像和目标可控结构作为输入。通过这种方式,条件图像可以提供外观信息,而可控结构则可以为生成目标结果提供结构信息。

此外,我们的模型通过学习三种新颖的损失来学习图像到图像的映射,即颜色损失、可控结构指导的循环一致性损失和可控结构指导的自内容保持损失。

同时,我们提出了Fréchet ResNet Distance(FRD)来评估生成图像的质量。在两个具有挑战性的图像转换任务上的实验,即手势到手势的转换和跨视图图像转换,表明我们的模型产生了令人信服的结果,并在两个任务上都显著优于其他最先进的方法。

同时,所提出的框架是一个统一的解决方案,因此它可以应用于解决其他可控结构指导的图像转换任务,如基于地标指导的面部表情转换和基于关键点指导的人物图像生成。

据我们所知,我们是第一个使一个GAN框架在所有此类可控结构指导的图像转换任务上工作的研究团队。

     三、引言


       GANs(GANs)是基于博弈论的生成模型,在高质量图像生成等广泛应用中取得了令人印象深刻的性能。为了生成特定类型的图像,Mirza等人提出了条件GAN(CGAN),它包括一个普通GAN模型和其他外部可控结构(例如类标签,参考图像,对象关键点,人体骨架和语义映射)。

       在本文中,我们主要关注使用CGAN的图像到图像翻译任务

       在高层次上,当前的图像到图像翻译技术通常分为两种类型之一:监督/配对和无监督/非配对。然而,现有的图像到图像翻译框架对于多域图像到图像翻译任务是低效的。例如,给定n个不同的图像域,Pix 2 pix 和BicycleGAN 需要训练A2 n模型。CycleGAN 、DiscoGAN和DualGAN 需要训练C2 n模型,因为对于这些方法,一个模型具有两个不同的生成器/消隐器对。ComboGAN 需要n模型G2 GAN需要训练两个生成器,即,生成生成器和重建生成器,而StarGAN 只需要一个模型。然而,对于一些特定的图像到图像转换应用,例如手势到手势转换和人物图像生成,n可以是任意大的,因为手势和人体在野外可以具有任意姿势,大小,外观,位置和自遮挡

         为了解决这些限制,已经提出了几项工作来基于可控结构生成图像(例如,对象关键点、人体骨架和场景语义图)。这些作品可以分为三个不同的类别: 

1)对象关键点引导方法。Reed等人提出了GAWWN,它根据鸟类关键点生成鸟类图像。Song等人提出了基于面部标志的G2 GAN面部表情合成。Ma等人提出了PG 2和两阶段重建流水线,使用条件图像和目标姿势图像实现人物图像转换。

2)人类骨骼引导的方法。Siarohin等人介绍了基于人体骨架的PoseGAN,用于人体图像生成。Tang等人。提出了一种新的GestureGAN条件手骨架,用于手势到手势图像翻译任务。Yan等人。提出了一种使用CGAN和人体骨架信息生成具有简单背景的人体运动序列的方法。

3)场景语义引导方法。Wang等人提出了Pix 2 pixHD,它可以用于将语义标签映射转换为照片般逼真的图像或从面部标签映射合成肖像。Park等人。提出了空间自适应归一化,这是一个简单但有效的层,用于在给定输入语义布局的情况下合成图像。Regmi和Borji 提出了X-Fork和X-Seq,旨在通过使用语义映射的指导来生成两个截然不同的视图的图像。

 图1:与最先进的图像到图像翻译方法的比较

(a)传统的深度学习方法,例如,上下文编码器。

(b)对抗性学习方法,例如,Pix 2 pix 和BicycleGAN。

(c)关键点引导的图像生成方法,例如,

(d)骨架引导的图像生成方法,例如,PoseGAN 。

(e)语义引导的图像生成方法,例如,选择GAN 和X-Fork。

(f)对抗性无监督学习方法,例如,

(g)多域图像转换方法,例如,G2 GAN 和StarGAN 。

(h)本文提出了GAN模型。注意,所提出的GAN模型是可控结构引导的图像到图像平移问题的统一解决方案,即,可控结构C可以是类别标签L、对象关键点K、人体骨架S或语义图M中的一个。

符号:x和y是真实的图像; x'和y'是生成的图像; x''和y''是重建的图像; Ky是y的关键点; Sy是y的骨架; My是y的语义映射; Lx和Ly分别是x和y的类标签; Cx和Cy分别是x和y的可控结构; G,GX→Y和GY→X表示生成器; D、DY和DX表示鉴别器。

       上述方法在相应的任务上取得了令人印象深刻的结果。然而,它们中的每一个都是为特定的应用程序定制的,限制了它们的泛化能力

        我们的框架不施加任何特定于应用程序的约束。这使得我们的设置比其他方法简单得多(见图1)。为了实现这一目标,我们提出了一个统一的解决方案,可控的图像到图像的翻译。它允许在野外生成具有任意姿势、大小、结构和位置的高质量图像。我们的GAN模型仅由一个生成器和一个控制器组成,以条件图像和新颖的可控结构作为输入。以这种方式,条件图像可以提供外观信息,并且可控结构可以提供用于生成目标图像的结构信息。此外,为了更好地学习输入和输出之间的映射,我们提出了三种新的损失,即,颜色损失、可控结构引导的循环一致性损失和自我内容保持损失。所提出的颜色损失可以处理生成模型(如PG 2 )中经常发生的“通道污染”问题,从而使生成的图像更清晰,质量更高。所提出的可控结构引导的循环一致性损失比CycleGAN中提出的更灵活,进一步减少了不同域之间可能映射的空间。所提出的自我内容保持损失可以保持生成的图像的颜色组成、对象身份和全局布局。这些优化损失函数和所提出的GAN框架以端到端的方式联合训练,以提高所生成图像的保真度和视觉自然度。此外,我们提出了Fréchet ResNet距离(FRD),这是一种新的更好的评估GAN生成图像的评估度量。对两个具有挑战性的可控图像到图像翻译任务进行了广泛的实验,使用四个不同的数据集,即,手势到手势翻译和跨视图图像翻译,表明所提出的GAN模型生成具有令人信服的细节的高质量图像,并在这两项任务上实现了最先进的性能。最后,所提出的GAN模型是一种通用的解决方案,可以应用于解决各种各样的可控结构引导的图像到图像的翻译问题。和所提出的GAN框架以端到端的方式联合训练,以提高所生成图像的保真度和视觉自然度。此外,我们提出了Fréchet ResNet距离(FRD),这是一种新的更好的评估GAN生成图像的评估度量。对两个具有挑战性的可控图像到图像翻译任务进行了广泛的实验,使用四个不同的数据集,即,手势到手势翻译和跨视图图像翻译,表明所提出的GAN模型生成具有令人信服的细节的高质量图像,并在这两项任务上实现了最先进的性能。最后,所提出的GAN模型是一种通用的解决方案,可以应用于解决各种各样的可控结构引导的图像到图像的翻译问题。

总之,本文的贡献如下:

·      我们提出了一个用于可控图像到图像翻译任务的统一GAN模型该模型可以在野外生成具有任意姿态,大小,结构和位置的目标图像

      ·我们提出了三个新的目标函数来更好地优化所提出的GAN模型,即,颜色损失、可控结构引导的循环一致性损失和自我内容保持损失。这些优化函数和所提出的GAN框架以端到端的方式联合训练以提高生成图像的质量和保真度

        提出了一种有效的Fréchet ResNet Distance(FRD)度量方法来评价真实的图像和生成图像的相似性,该方法更符合人类的判断

        定性和定量结果证明了所提出的GAN模型在具有四个数据集的两个具有挑战性的可控图像翻译任务上优于最先进的方法,即,手势到手势转换和跨视图图像转换。

这篇文章的部分内容已发表。我们以多种方式扩展它:

1)我们将中提出的GestureGAN扩展为统一的GAN框架,用于处理所有可控的图像到图像翻译任务。

2)我们进一步调整我们的整个流水线,并通过采用三个额外的损失,即,可控结构引导的自我内容保持损失、感知损失和全变差损失。此外,我们将中的单周期框架扩展为双周期框架,并验证了其有效性。

3)我们在几个方向上扩展了中提供的实验评估。

首先,我们使用四个不同的数据集对两个具有挑战性的生成任务进行了广泛的实验,证明了我们的GAN框架的广泛应用范围。其次,我们进行详尽的消融研究,以评估所提出的方法的每个组成部分。第三,我们研究了超参数对发电性能的影响。第四,比较了不同方法的模型参数。最后,我们在这两个任务上提供了任意的图像翻译结果。

四、相关工作

       生成对抗网络(GAN)

       是无监督学习。

       最近,GAN在各种应用中显示出有希望的结果,例如,图像生成。现有方法采用GAN的思想进行条件图像生成,例如图像到图像转换,文本到图像转换,音频到图像和草图生成。GAN的关键成功在于对抗性损失,这使得模型能够生成与真实的图像无法区分的图像,而这正是许多任务旨在优化的目标。在本文中,我们主要关注图像到图像的翻译任务。

        图像到图像转换

        是将图像从源域转移到目标域的问题,其使用输入-输出数据来学习输入和输出之间的参数映射,例如,Isola等人。提出了Pix 2 pix,它使用条件GAN来学习从输入到输出图像域的转换函数,并使用配对的训练数据。然而,收集大量的图像对通常是非常昂贵或不可行的。为了解决这个限制,Zhu等人。提出了CycleGAN,它可以通过使用循环一致性损失来学习在没有配对输入输出示例的情况下在域之间进行转换。类似的想法已经在几个作品中提出。例如,Choi等人。介绍了StarGAN,它可以为多个域执行图像到图像的翻译。

       然而,现有的图像到图像的翻译模型是低效和无效的。例如,对于n个图像域,CycleGAN ,DiscoGAN和DualGAN需要训练2C 2 n=n(n-1)=(n2)生成器和鉴别器,而Pix 2 pix和BicycleGAN 必须训练A2 n=n(n−1)=(n2)发电机/整流器对。最近,Anoosheh等人提出了ComboGAN,它只需要为n个不同的图像域训练n个生成器/转换器对,复杂度为(n)。Tang等人提出了G2 GAN,它可以只使用两个生成器为多个域执行图像到图像的翻译,即,生成器和重建生成器。此外,Choi等人。提出了StarGAN,其中单个生成器和一个编译器可以为多个域执行不成对的图像到图像的翻译。虽然StarGAN的计算复杂度为,但该模型仅在具有清晰背景和人脸裁剪的人脸属性修改任务上进行了验证。更重要的是,对于一些特定的图像到图像转换任务,例如手势到手势转换和人物图像生成[任务,图像域可以是任意大的,例如,野外的手势和人体可以具有任意的姿势、大小、外观、结构、位置和自聚焦。上述方法在解决这些具体情况时并不有效。

       可控制的图像到图像转换

        为了解决这些局限性,已经提出了几项最近的工作来基于可控结构生成人、鸟、面部和场景图像,即,以这种方式,可控结构提供四种类型的信息来指导图像生成过程,即,类别、规模、方向和位置。尽管在计算机视觉领域已经做出了显著的努力来实现可控的图像到图像的平移,但是在通用可控图像平移方面的研究非常有限。也就是说,上述生成模型的典型问题是,它们中的每一个都是针对特定应用定制的,这极大地限制了所提出的模型的泛化能力。为了解决这个问题,我们提出了一种新的和统一的GAN模型,它可以被定制用于处理各种可控结构引导的图像到图像翻译的问题设置,包括对象关键点引导的生成任务,人体骨骼引导的生成任务和语义地图引导的生成任务等。

五、模型描述


        在本节中,我们将详细介绍所提出的GAN模型(图2)。我们提出了一个可控结构引导生成器,它利用图像从一个域和条件可控结构从另一个域作为输入,并产生图像在目标域。此外,我们提出了一种新的阻尼器,它也考虑到可控结构。所提出的GAN模型以端到端的方式进行训练,相互受益于生成器和网络。

图2:用于可控图像到图像翻译任务的所提出的统一GAN模型的流水线。所提出的GAN框架由单个生成器G和相关联的对抗性分类器 D组成,其将条件图像x和可控结构Cy作为输入以产生目标图像y'.我们有两个周期,这里只显示其中一个。注意,可控结构Cy可以是类标签、对象关键点、人骨架、语义图等。

A.可控结构引导生成器

1)、可控结构引导生成:

图像到图像的翻译任务,例如手势到手势的翻译,人物图像生成,面部表情到表情的翻译和跨视图图像翻译是非常具有挑战性的。在这些任务中,源域和目标域可能具有大的变形。此外,这些任务可以被视为一个无限映射问题,导致翻译过程中的歧义问题。例如,在手势到手势转换任务中,如果您向生成器输入手势图像,则它不知道应该输出哪些手势。

为了解决这个问题,我们采用可控结构作为条件指导来指导图像生成过程。可控结构可以是类标签,对象关键点,人类骨架或语义地图等。在之后,我们使用从其他大规模数据集预训练的深度模型生成可控结构,例如,我们应用姿势估计器OpenPose 来获得近似的人体姿势和手部骨架。具体地,如图2所示,我们将来自源域的输入条件图像x和来自目标域的可控结构Cy连接起来,并将它们输入到生成器G中并合成目标图像y以这种方式,地面实况可控结构Cy提供更强的监督和结构信息以引导深度网络中的图像到图像的转换,而条件图像x提供外观信息以产生最终结果y.

2)、可控结构引导循环:

在可控结构Cy的引导下,我们的生成器可以产生相应的图像y.然而,诸如的现有技术的可控图像到图像平移方法仅考虑图像平移过程,即,从源域到目标域。与之不同的是,我们同时考虑了图像平移过程和图像重建过程,即,从源域到目标域以及从目标域返回到源域。这背后的直觉是,如果我们从一个域转换到另一个域,然后再返回,我们应该到达我们开始的地方。所提出的可控结构引导循环与CycleGAN [11]中提出的循环不同,CycleGAN 使用循环一致性损失来保留其输入图像的内容,同时仅改变输入的域相关部分。主要区别在于CycleGAN只能处理两个不同的域,而图像翻译问题(如手势到手势翻译任务)具有任意域,例如,在野外的手势可以具有任意的姿势、大小、外观、结构、位置和自遮挡。因此,我们需要可控结构来指导所提出的循环的学习。所提出的可控结构引导循环也不同于StarGAN [16]中提出的循环,StarGAN 将原始图像转换为目标域中的图像,然后通过馈送目标标签从转换后的图像重建原始图像。但是类标签只能提供类别信息,而可控结构可以同时提供四类信息生成,即,类别、位置、规模和方向。具体地,如图2所示,所生成的图像y和可控结构Cx被级联以输入到生成器G中。因此,所提出的可控结构引导循环可以用公式表示如下,

请注意,我们使用单个生成器两次,首先将原始图像转换为目标域中的图像,然后从转换后的图像重建原始图像。在我们的框架中同时考虑了图像平移和图像重建,构建了一个完整的映射循环。同样,我们还有另一个周期,

3)、可控结构引导的循环一致性损失:

为了更好地优化所提出的循环,我们提出了一种新的可控结构引导的循环一致性损失。值得注意的是,CycleGAN 与Pix2pix模型不同,因为CycleGAN中的训练数据是未配对的。CycleGAN引入了循环一致性损失来强制前后向一致性。在这种情况下,循环一致性损失可以被视为训练数据的“伪”对,即使我们在目标域中没有对应于来自源域的输入数据的对应数据。然而,在这篇文章中,我们介绍了可控结构引导的循环一致性损失的配对图像到图像的翻译任务。该损失确保了源图像和重建图像之间的一致性,并且其可以表示为,

六、实验

七、总结

       在本文中,我们重点介绍了可控图像到图像转换这一具有挑战性的任务。

       为此,我们提出了一个统一的GAN框架,该框架可以基于条件图像和可控结构生成具有不同姿态、大小、结构和位置的目标图像

        这样,条件图像可以提供外观信息,可控结构可以提供结构信息以生成最终结果。此外,我们还提出了三种新的损失来学习从源域到目标域的映射,即颜色损失、可控结构引导的循环一致性损失和可控结构引导的自内容保留损失。值得注意的是,所提出的颜色损失处理了梯度反向传播时经常发生的“通道污染”问题,这在现有的生成模型中经常发生。可控结构引导的循环一致性损失可以减少源域和目标域之间的不匹配。可控结构引导自内容保留丢失旨在保存生成图像的图像内容信息。此外,我们还提出了一种新颖的 Fréchet ResNet 距离 (FRD) 指标来评估生成图像的质量。

        实验结果表明,与现有方法相比,所提出的统一GAN框架在手势到手势转换和交叉视图图像转换两个具有挑战性的生成任务上取得了具有竞争力的性能。

        请注意,所提出的GAN框架没有针对任何特定的可控图像到图像转换任务进行调整。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值