Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand(2022)

代码地址:GitHub - SHI-Labs/FcF-Inpainting: [WACV 2023] Keys to Better Image Inpainting: Structure and Texture Go Hand in Hand1、摘要

本文认为通过生成的结构和纹理可以更好地判断修复算法的性能。结构是指生成的物体边界或清晰的几何结构,纹理是指高频细节,尤其是填充在结构区域内部的人造重复图案。本文认为更好的结构通常是从从粗到细基于GAN的生成器网络,重复模式可以被更好塑造使用高频快速傅立叶卷积层。在本文提出了一种结合两种设计优点的新型修复网络。因此,本文的模型在使用单个网络的结构生成和重复纹理合成方面实现了显著的视觉质量,以匹配最先进的性能。本文的结论进一步强调了图像修复质量的两个关键因素,结构和纹理,作为未来修复网络的设计方向。

本文提出了一种直观有效的修复架构,该架构利用FFC的高接收能力来增强强大的共调制StyleGAN2生成器,以在纹理和结构上实现同样良好的性能,如图1所示。具体而言,本文在基于粗到细的StyleGAN的生成方案中生成图像结构。同时,本文将生成的粗糙特征和来自编码器的跳跃特征合并,并通过快速傅立叶合成(FaF-Syn)模块来更好地生成重复纹理。本文的想法使结构和纹理在一个单一的网络中很好地合成。

本文利用多尺度高感受野傅立叶卷积层可以更好地合成重复纹理。本文结合两者的优点,提出了一种用于通用图像修复的傅立叶粗CF)生成器。本文的模型很好地同时处理了纹理和结构,并很好地推广到自然和人工场景。

2、方法

四通道输入连接Masked的RGB图像(I_{hole})和孔(M),I_{hole}=I_{org}\bigodot(1-M),输入被馈送到编码器网络以获得编码的潜在向量Z_{enc}和多级特征映射X_{skip}。本文的生成器网络(G)分享了StyleGAN2 架构的精神。与CoModGAN 类似,我们生成随机噪声潜在向量Z,并通过映射网络(M)传递它,并获取嵌入Z_{w}Z_{enc}Z_{w}连接送入生成器G。核心贡献是我们在傅立叶粗到细(FcF)生成器中新提出了快速傅立叶合成模块(FaF-Syn)。

2.1傅立叶由粗到细(FCF)生成器

本文的目标是将LaMa(快速傅立叶卷积残差块)的思想集成到基于共调制style gan2的由粗到细生成器中。直观地,由粗到细生成器根据高级特征和噪声嵌入来提取全局结构和图像风格。在生成器中的上采样过程期间,在非孔洞区域和所生成的孔洞区域中的全局纹理特征都可以由快速傅立叶卷积层提取,并被适当地集成以在随机生成的结构中提炼纹理。该想法通过由快速傅立叶残差(FaF-Res)模块组成的快速傅立叶合成(FaF-Syn)模块来实现。在每个FaF_Res块中,有两个快速傅立叶卷积(FFC)层.

快速傅立叶卷积残差块(FaF-Res)。图3(c)中的FaF残差块包括两个快速傅立叶卷积(FFC)层(图2)。FFC 层是基于通道方式的快速傅立叶变换(FFT) 。它将通道分成两个分支:a)局部分支使用传统的卷积来捕获空间细节,b)全局分支使用频谱变换模块来考虑全局结构并捕获全局上下文。最后,局部和全局分支的输出被堆叠在一起。

频谱变换使用两个傅立叶单元(FU)来捕捉全局和半全局信息。左傅立叶单元(FU)模拟全局信息。另一方面,右侧的局部傅立叶单元(LFU)接收四分之一的通道,并聚焦于图像中的半全局信息。傅立叶单元主要使用实FFT2D运算、频域中的卷积运算将空间结构分解成图像频率,并最终使用逆FFT2D运算恢复该结构。

LaMa首先将FFC层应用于修复,但并没有揭示它成功合成重复图案的原因。我们分析了FFC层内LaMa的中间特征,发现在傅立叶单元内的逆FFT2D层之后,学习到的特征并不直接表示和重建复杂的图像内容,而是生成多个全局重复模式,如图2所示。然后,学习到的全局重复模式在孔洞区域内合并,以合成更复杂的重复内容。因此,为了更有效地使用FFC进行修复,最好将FFC图层集成到生成过程中,而不是进行要素编码。它启发我们仔细设计一个多尺度FFC合成模块,并将FFC层合并到StyleGAN2的粗到细生成器部分。

快速傅立叶合成模块

我们的生成器(G)与CoModGAN 有类似的想法,但主要区别是我们在由粗到细的生成过程中设计了新提出的快速傅立叶合成(FaF-Syn)模块(图3(b))。

将其集成到基于StyleGAN2的生成器中并不容易。有两个主要问题需要考虑:首先,全局重复纹理可以通过跳过连接从编码特征或在生成的特征中更好地建模。应该将FFC模块嵌入编码器还是生成器?本文认为最好通过可视化和分析FFC要素在生成过程中利用它。第二,假设将FFC块集成到生成器中,FFC层可能会放大非常粗糙的级别层中的噪声生成结构,导致不稳定的训练并损害性能。哪种级别的要素更适合包含FFC图层? 

首先,我们在编码器\varepsilon和生成器G中对应于相同分辨率尺度的层间使用跳跃连接。其次,快速傅立叶合成(FaF-Syn)模块FaF-Syn接受编码的跳跃连接特征Xskip和从生成器中的前一级别采样的特征X_{skip}。FaF-Syn显式地集成来自编码器(即,现有图像纹理)和生成器(即,来自先前层的生成纹理)的特征,以合成全局重复纹理特征。它允许利用以前粗糙的重复纹理,并在更精细的层次上进一步细化它们。FaF-Syn仅适用于32×32、64×64、128×128和256×256的功能分辨率。

2.2.其他模块

编码器网络。编码器遵循与StyleGAN2中使用的辨别器类似的架构,但没有残差跳跃连接。\varepsilonI_{hole}和M下采样到4×4的空间大小。我们还在编码器\varepsilon和生成器G之间使用跳过连接。最后,我们将展平的4×4编码特征图通过线性层以获得编码的潜在向量Z_{enc}

映射网络 在框架中使用映射网络(M)来转换噪声潜在向量(Z\simN(0,1),到一个潜在空间zw=M(z).我们进一步执行仿射变换在来自编码器M的Z_{w}Z_{enc}.来自A的样式系数(s)用于缩放生成器(G)中卷积层的权重。M的架构类似于StyleGAN2中使用的8层MLP映射网络。

辨别器  对于我们的鉴别器,我们坚持使用StyleGAN2中提出的残差鉴别器。根据训练阶段,我们的鉴别器接受孔掩模和原始图像或完整图像的连接。鉴别器接受孔掩模和原始图像或完整图像的连接。

本文利用非饱和逻辑损失和R1正则化来计算我们的对抗性损失。本文还使用重建损失以及高感受野感知损失来监控训练期间图像中的结构。重建损失对于使用FFC和提出的FaF-Syn模块学习重复模式是重要的。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值