学习笔记:High-Fidelity GAN Inversion for Image Attribute Editing 用于图像属性编辑的高保真生成对抗网络反演


项目主页:https://tengfei-wang.github.io/HFGI/
论文链接:https://arxiv.org/abs/2109.06590
代码链接:https://github.com/Tengfei-Wang/HFGI

摘要

本文提出了一种新的高保真生成对抗网络(GAN)反演框架,该框架能够在保持良好的图像特定细节(例如背景、外观和照明)的情况下进行属性编辑。我们首先从有损数据压缩的角度分析了高保真GAN反演的挑战。由于潜码的比特率较低,以往的工作难以在重建和编辑后的图像中保留高保真的细节。增加潜码的大小可以提高GAN反演的准确性,但代价是可编辑性较差。为了在不影响可编辑性的前提下提高图像的保真度,我们提出了一种失真协商方法,该方法采用失真图作为高保真重建的参考。在失真协商反演(DCI)中,首先将失真图投影成一个高比率潜图上,然后通过协商融合为基本的低比率潜码补充更多的细节。为了实现高保真的编辑,我们提出了一个自适应失真对齐(ADA)模块,该模块带具有自监督训练方案,弥补了编辑图像和反演图像之间的差距。在人脸和汽车领域的大量实验表明,反演和编辑质量都有明显提高。


1. 背景

  • 图像属性编辑是修改给定图像的所需属性,同时保留其他细节的任务。为了实现现实世界的图像编辑,很多工作探索了生成对抗网络反演技术,目的是将图像投影到训练有素的GAN生成器的潜在空间。

  • 现有的GAN反演方法要么执行图像优化,要么学习数据驱动的编码器。优化方法可获得较高的重建精度,但会过度拟合单个图像,从而导致较差的编辑质量。相比之下,基于编码器的GAN反演方法从大量训练图像中学习知识,并且速度更快,编辑性能更好。然而,它们的重建结果往往不够准确且保真度低。这些方法可以重建粗略的布局(低频模式),但图像特定的细节(高频模式)经常被忽略。

虽然有些工作试图提高基于编码器的方法的重建精度,但它们的编辑性能通常会降低。为了分析现有方法的局限性,作者将GAN反演问题视为一个具有冻结解码器的有损数据压缩系统。将真实世界的图像转换为低维潜码将不可避免地导致信息丢失,由于深度压缩模型倾向于保留某个域的公共信息,因此丢失的信息主要是图像特定的细节。

为了实现高保真性和可编辑性,本文提出了一种新的框架,通过失真协商来改进编码器模型。协商分支相当于重建的“备忘录”,只传达被忽略的图像特定信息。该方案在重建质量方面有明显的改善。对于属性编辑,本文设计了一个自适应失真对齐(ADA)网络,以使用编辑后的图像调整失真图。

图1


2. Rate-Distortion-Edit 权衡

“Rec”和“Edit”分别表示重构和编辑结果。(a) 是典型的低比率GAN反演框架,但存在细节丢失和失真的问题。(b) 是一种原始的高比率GAN反演框架,重建近乎完美,但可解释性和可编辑性较差。本文提出的方法结合了高细节保真度和引人注目的编辑性能以及快速的推理速度。

图2
详情请见原文


3. 方法

3.1 整体框架

图中是本文方法的一个整体框架。首先使用基本编码器 E E E0得到低比率潜码 W W W,再通过生成器 G G G0得到初始重建图像ˆ X X Xo,由于低比率潜码的信息丢失,所以图像属于低保真度。在初始重建图像ˆ X X Xo和源图像 X X X之间的失真图˜Δ = X X

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值