Yongsheng Yu1,2, Libo Zhang1,2,3⋆, Heng Fan4, and Tiejian Luo21 Institute of Software, Chinese Academy of Sciences2 University of Chinese Academy of Sciences3 Nanjing Institute of Software Technology4 Department of Computer Science and Engineering, University of North Texasyuyongsheng19@mails.ucas.ac.cn; libo@iscas.ac.cn; heng.fan@unt.edu;tjluo@ucas.ac.cn
原文链接:[2208.11850] High-Fidelity Image Inpainting with GAN Inversion (arxiv.org)
摘要:
图像修复是一种语义一致的方法,可以根据其未屏蔽的内容恢复损坏的图像。以前的方法通常在生成真实补丁之前重用训练有素的 GAN 并有效,以便使用 GAN 反演丢失孔。然而,这些算法中对硬约束的无知可能会产生GAN反演和图像修复之间的差距。为了解决这个问题,在本文中,我们设计了一种新的用于图像修复的 GAN 反演模型,称为 InvertFill,主要由具有预调制模块和具有 F&W+ 潜在空间的 GAN 生成器的编码器组成。在编码器中,预调制网络利用多尺度结构将更具辨别力的语义编码为样式向量。为了弥合 GAN 反向(理解参考论文:Inverting the Generator of a GAN 生成器反向_反向生成器是由什么组成-CSDN博客)和图像修复之间的差距,提出了F&W+ 潜在空间来消除闪烁的颜色差异和语义不一致。为了重建忠实和逼真的图像,设计了一个简单而有效的软更新平均潜在模块来捕获更多样化的域内模式,这些模式为大型损坏合成高保真纹理。在四个具有挑战性的数据集(包括 Places2、CelebA-HQ、MetFaces 和 Scenery)上的综合实验表明,我们的 InvertFill 在定性和定量上都优于高级方法,并且很好地支持域外图像的完成
论文展示的修复效果,分别为大面积遮盖的复原,人脸,以及域外人脸的效果。
模型整体框架图:
主要构成为:
1/编码器以及映射网络
2/stylegan2 包含F&W+潜在空间
以及损失函数:
3.2 更接近掩码边界的软更新
更接近掩码边界的像素更容易被修复,相反,模型很难预测缺失的特定内容。我们发现编码器学习了一个技巧来对纹理进行平均,以重建远离未屏蔽区域的区域。它在输出图像的某些区域引起模糊或马赛克,主要远离掩模边界。从L2正则化中获得灵感,其动机是拟合不同的领域比拟合预设的静态域效果更好,可行的解决方案是使样式代码w∗受预先训练的GAN的平均潜在代码的限制。平均潜在代码是从丰富的随机样本中获得的,这些样本将编码器输出限制为平均样式,因此有损了编码器的输出分布的多样性。此外,它引入了额外的超参数和静态平均潜在代码,需要在训练模型时加载。我们采用动态平均潜在代码而不是静态潜在代码,在训练期间随机波动平均潜在代码。此外,我们平滑波动方差对受强化学习[18]启发的收敛的影响。对于初始化,对目标平均潜在代码 wt 和在线平均潜在代码 wo 进行采样。wo 用于图像生成而不是 wt,它固定为 wo = wt,然后重新采样。在两个连续的采样平均潜在代码之间,wo 在训练期间每次迭代由 wo ← τ wo + (1 − τ )wt 更新,其中 τ 表示更新因子,wt 表示软更新目标平均潜在代码。当软更新均值潜伏期的参数τ接近零时,软更新均值潜伏期退化为静态平均潜伏期[28]。
本文结论:
在本文中,我们提出了一种基于编码器的 GAN 反演方法 InvertFill 用于图像修复。编码器将损坏的图像投影到潜在空间 F&W+ 中,具有预调制以学习更具辨别力的表示。新的潜在空间 F&W+ 在应用于图像修复中的 GAN 反演时解决了“间隙”问题。此外,软更新平均潜在动态采样不同的域内模式,从而产生更真实的纹理。大量的定量和定性比较证明了我们的模型比以前的方法的优越性,并且可以便捷地支持来自不可见域的图像或掩码的语义一致补全。
本篇论文提供了较多的对比试验信息。可以参考原文 [2208.11850] High-Fidelity Image Inpainting with GAN Inversion (arxiv.org) 查看