学习笔记:High-Fidelity GAN Inversion for Image Attribute Editing 用于图像属性编辑的高保真生成对抗网络反演


项目主页:https://tengfei-wang.github.io/HFGI/
论文链接:https://arxiv.org/abs/2109.06590
代码链接:https://github.com/Tengfei-Wang/HFGI

摘要

本文提出了一种新的高保真生成对抗网络(GAN)反演框架,该框架能够在保持良好的图像特定细节(例如背景、外观和照明)的情况下进行属性编辑。我们首先从有损数据压缩的角度分析了高保真GAN反演的挑战。由于潜码的比特率较低,以往的工作难以在重建和编辑后的图像中保留高保真的细节。增加潜码的大小可以提高GAN反演的准确性,但代价是可编辑性较差。为了在不影响可编辑性的前提下提高图像的保真度,我们提出了一种失真协商方法,该方法采用失真图作为高保真重建的参考。在失真协商反演(DCI)中,首先将失真图投影成一个高比率潜图上,然后通过协商融合为基本的低比率潜码补充更多的细节。为了实现高保真的编辑,我们提出了一个自适应失真对齐(ADA)模块,该模块带具有自监督训练方案,弥补了编辑图像和反演图像之间的差距。在人脸和汽车领域的大量实验表明,反演和编辑质量都有明显提高。


1. 背景

  • 图像属性编辑是修改给定图像的所需属性,同时保留其他细节的任务。为了实现现实世界的图像编辑,很多工作探索了生成对抗网络反演技术,目的是将图像投影到训练有素的GAN生成器的潜在空间。

  • 现有的GAN反演方法要么执行图像优化,要么学习数据驱动的编码器。优化方法可获得较高的重建精度,但会过度拟合单个图像,从而导致较差的编辑质量。相比之下,基于编码器的GAN反演方法从大量训练图像中学习知识,并且速度更快,编辑性能更好。然而,它们的重建结果往往不够准确且保真度低。这些方法可以重建粗略的布局(低频模式),但图像特定的细节(高频模式)经常被忽略。

虽然有些工作试图提高基于编码器的方法的重建精度,但它们的编辑性能通常会降低。为了分析现有方法的局限性,作者将GAN反演问题视为一个具有冻结解码器的有损数据压缩系统。将真实世界的图像转换为低维潜码将不可避免地导致信息丢失,由于深度压缩模型倾向于保留某个域的公共信息,因此丢失的信息主要是图像特定的细节。

为了实现高保真性和可编辑性,本文提出了一种新的框架,通过失真协商来改进编码器模型。协商分支相当于重建的“备忘录”,只传达被忽略的图像特定信息。该方案在重建质量方面有明显的改善。对于属性编辑,本文设计了一个自适应失真对齐(ADA)网络,以使用编辑后的图像调整失真图。

图1


2. Rate-Distortion-Edit 权衡

“Rec”和“Edit”分别表示重构和编辑结果。(a) 是典型的低比率GAN反演框架,但存在细节丢失和失真的问题。(b) 是一种原始的高比率GAN反演框架,重建近乎完美,但可解释性和可编辑性较差。本文提出的方法结合了高细节保真度和引人注目的编辑性能以及快速的推理速度。

图2
详情请见原文


3. 方法

3.1 整体框架

图中是本文方法的一个整体框架。首先使用基本编码器 E E E0得到低比率潜码 W W W,再通过生成器 G G G0得到初始重建图像ˆ X X Xo,由于低比率潜码的信息丢失,所以图像属于低保真度。在初始重建图像ˆ X X Xo和源图像 X X X之间的失真图˜Δ = X X X - ˆ X X Xo包含丢失的高频图像特定细节,用来提高重建保真度。红色虚线框表示具有特定语义方向的编辑。为了实现高保真图像编辑,作者提出了失真协商分支来传递丢失的图像特定细节。在失真协商中,失真图˜Δ首先通过ADA与低保真度编辑图像ˆ X X Xoedit 对齐,然后通过协商编码器 E E Ec嵌入到高比率潜在映射 C C C中。潜码 W W W和潜在映射 C C C通过协商融合跨 G G G0层进行组合以生成最终编辑的图像ˆ X X Xedit

图3

3.2 协商融合

为了将协商分支与基本编码器结合起来生成图像,就要对潜码 W W W和潜在映射 C C C采用分层协商融合,如图所示。

图3-3
由于潜码 W W W引入的伪影和不准确的细节会降低生成质量,所以设计了一种门控融合方案来自适应过滤不需要的特征。在 G G G0的第 i i i 层, C C Ci 被嵌入到概略图 g g gi 和高频细节图 h h hi 中:

公式2
其中映射函数 f f fgate f f fhf为卷积层。 h h hi 包含图像特定的细节,便于潜码 W W Wi 得到的低保真特征在StyleGAN中生成高保真特征图 F F Fi+1:

公式3
为了避免对反演结果过拟合,这里只在生成器 G G G0前面的层进行协商融合。

3.3 自适应失真对齐模块

对于属性编辑,将低比率潜码 W W W按照语义方向进行编辑,得到的初始编辑图像ˆ X X Xoedit 同样存在细节失真的问题。但失真图˜Δ = X X X - ˆ X X Xo是为根据初始重建图像ˆ X X Xo计算的。所以在编辑年龄、姿势和表情等属性时,编辑图像ˆ X X Xoedit 会相对重建图像ˆ X X Xo变形。这意味着观察到的失真图˜Δ可能与编辑的图像ˆ X X Xoedit 不对齐。

直接将失真协商DCI应用到初始编辑图像ˆ X X Xoedit 会导致明显的伪影,这个在后面的消融实验中能够看到。为了将失真协商DCI从反演推进到编辑,观察到的失真图˜Δ应与编辑图像ˆ X X Xoedit 自适应对齐。因此,作者提出了自适应失真对齐(ADA)模块,它是一个类似编码器-解码器的结构,用于失真对齐。

ADA是将失真图˜Δ与一个目标图像对齐,这个目标图像可以是初始重建图像,也可以是初始编辑图像。对于反演,ADA理想情况下是身份映射。对于编辑,需要将失真图自适应转换ˆΔedit,并使它与初始编辑结果一致。得到的 C C Cedit 作为参考,使最终的编辑图像可以保留更多细节。

图3-2

3.4 损失

  • 对齐损失:
    公式6

  • 重建损失,首先要计算重建图像ˆ X X X和原始图像 X X X之间的L2损失ℒ2、感知损失ℒLPIPS和身份损失ℒid ,然后再进行加权求和:
    公式4

  • 对抗性损失,用来改善图像质量:
    公式5
    总损失就是ℒalign、ℒrec和ℒadv这三个损失的加权总和。这里需要注意的是,训练过程中只涉及反演图像,不需要编辑图像。经过训练后,模型就可以推广到用不同方法探索的各种属性编辑。


4. 实验

4.1 定量比较

作者首先将本文的方法(以e4e作为基本编码器)与两种基于优化的方法(I2S、PTI),以及最先进的基于编码器的GAN网络反演方法(pSp、e4e、分别以pSp和e4e作为骨干的Restyle)进行了定量比较。

表1

这些指标是根据来自CelebA-HQ的前1500张图像计算出来的,箭头向下表示越小越好,向上就表示越大越好。

从表中可以看出本文的方法在重构质量方面优于其他方法,并且在推断时也比其他方法更快。

4.2 定性比较

4.2.1 与基于编码器的方法

图中展示了反演和编辑的可视化结果,2-5列是反演结果,6-9列是编辑结果,这里举例加减年龄、笑容、改变颜色、和添加草地。 完整实验结果请详见原文

图4

  • 现有基于编码器的方法无法忠实地重建这些具有挑战性的图像,它们会产生失真的结果,并且在反演和编辑时受到影响;

  • 与以往的方法相比,本文的方法对具有遮挡和极端视角的图像具有较强的鲁棒性。比如第一行被手遮挡的人脸图像,和最后一行具有超视点的汽车图像。除了增强鲁棒性之外,本文的方法还成功地保留了更多的细节,例如第一行和第三行的手部、第四行和最后一行的背景。

4.2.2 与基于优化的方法

图5-1
从之前的定量结果能够知道本文的方法推断速度快了约1000倍,但仍然能达到非常好的重建质量。并且,产生的编辑结果在不影响编辑性能的情况下也成功地保留了源图像的特定细节。

4.3 消融实验

4.3.1 验证失真协商反演的有效性

失真协商反演(DCI)方案将能够被忽略的图像细节还原出来,作为低比率基本编码器的补充,从而实现高保真重建。

图6
从图中可以看出,采用失真协商反演方案的模型对遮挡和极端姿态具有更强的鲁棒性,并保留了重建结果中的更多细节,例如图中的手、头发、背景、车灯车标。

4.3.2 验证自适应失真对齐的有效性

图7

  • 在本文所提出的方法中,通过协商编码和协商融合,将对齐后的失真图嵌入并集成到特征空间中。这里提出了一个简单的替代方案:直接添加失真图˜∆到由面部标志估计的图像空间中。如图左侧所示,在图像空间中进行扭曲和融合也会导致明显的伪影,其中扭曲是通过系数面部特征点的坐标插值实现的。

  • 图中右侧分别展示了添加和不添加自适应失真对齐(ADA)的编辑结果。将失真图分别集成到图像和特征空间中,并显示编辑结果。可以看出,如果不进行自适应对齐,失真映射就不能传递到编辑后的图像,就降低了生成的图像质量。

4.4 在视频编辑中的应用

与图像的反演和编辑相比,视频图像的主要挑战是跨帧细节的时间一致性。因为在视频中,每一张图像的失真都会在一致性和质量上被放大,所以对重建保真度的要求也就更高。

以往的低比率反演方法缺乏对构成变化的鲁棒性,并且不能保持原始人物的身份,编辑结果失真比较明显。随着视频帧之间的姿势和视角发生变化,他们的结果会显示出不一致的细节和突然的身份差异。相比之下,本文的方法对跨帧差异(如姿态、视点)具有更强的鲁棒性,对细节保留方面实现了更高的保真度。项目主页中展示了视频效果。

下图是视频上的反演和编辑结果:

图8


5. 总结

  • 本文提出了一种失真协商反演方案,该方案结合了协商融合的高重建质量和强编辑性;

  • 对于高保真编辑,本文提出了具有自监督学习方案的自适应失真对齐模块。通过对齐,可以很好地将失真信息传播到编辑后的图像中;

  • 本文的方法在不同的图像域和视频上的定性和定量性能优于最先进的方法。该框架简单、快速,可以很容易地应用于GAN模型。

  • 2
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值