图像修复论文阅读Image Inpainting with Learnable Bidirectional Attention Maps

Image Inpainting with Learnable Bidirectional Attention Maps

Abstract

大多数基于卷积网络(CNN)的修复方法采用标准的卷积方法对有效像素和空洞进行不可区分的处理,使其仅限于处理不规则的空洞,更容易产生色差和模糊的修复结果。部分卷积被提出用来解决这一问题,但它采用手工特征重归一化,并且只考虑前向掩码更新。本文提出了一种可学习的注意力图模块,用于端到端的特征重归一化和掩码更新的学习,能够有效地适应不规则孔洞和卷积层的传播。此外,引入了可学习的反向注意图,使U-Net的解码器专注于填充不规则的空洞,而不是同时重构空洞和已知区域,从而得到了可学习的双向注意图。定性和定量实验表明,我们的方法在生成更清晰、更连贯和视觉上可信的修复结果方面表现得比最先进的方法更好。源代码和预先培训的模型可在以下网址获得:https://github.com/Vious/LBAM_inpainting/。

1 Intorduction

图像修复[3]是一种具有代表性的低层视觉任务,其目标是填充图像中的空洞,具有许多现实应用,如分散目标的去除、遮挡区域的填充等。然而,对于图像中给定的孔,可能存在多个可能的解,即可以用与周围已知区域一致的任何看似合理的假设来填充这些孔。而且孔洞可能是复杂和不规则的图案,进一步增加了图像修复的难度。传统的基于范例的方法[2,18,32],例如PatchMatch[2],通过从已知区域搜索并复制相似的面片来逐渐填充孔洞。尽管基于样本的方法在生成细节纹理方面是有效的,但它们在捕获高级语义方面仍然有限,并且可能无法生成复杂和非重复的结构(参见图1©)。
近年来,深度卷积网络(CNNs)在图像修复中的应用取得了长足的进展[10,20]。基于CNN的方法得益于强大的表征能力和大规模的训练,能够有效地实现语义上合理结果的生成。对抗性损失[8]也被用来改善结果的感知质量和自然性。尽管如此,大多数现有的基于CNN的方法通常采用标准卷积,无法区分有效像素和空洞。因此,它们在处理不规则孔方面受到限制,并且更有可能产生具有颜色差异和模糊的修复结果。作为补救措施,已经引入了几种后处理技术[10,34],但仍然不足以解决伪影(参见图1(D))。基于CNN的方法也与基于样本的方法相结合,以显式地合并孔洞的掩模,以更好地恢复结构和增强细节[26,33,36]。在这些方法中,掩模被用来引导编码器特征从已知区域传播到孔。然而,复制和增强操作大大增加了计算成本,并且仅部署在一个编解码层。因此,它们在填充矩形孔洞方面做得更好,而在处理不规则孔洞方面表现不佳(参见图1(E))。
为了更好地处理不规则孔并抑制颜色差异和模糊,提出了部分卷积(PConv)[17]。在每个PConv层中,使用掩码卷积使输出仅以未掩码的输入为条件,并引入特征重新归一化来缩放卷积输出。进一步提出了一种掩码更新规则来更新下一层的掩码,使得PConv在处理不规则孔洞时非常有效。尽管如此,PConv采用了硬0-1掩码和手工制作的特征重新归一化通过绝对信任所有填充的中间特征。此外,部分卷积仅前向掩码更新,并简单地将所有掩码用于解码器特征。
在这里插入图片描述
在本文中,我们更进一步,提出了可学习的双向注意力图模块,用于U-Net[22]体系结构的编码器和解码器上的特征的重新归一化。首先,我们无偏见地重温了PConv,并证明可以安全地避免掩码卷积,并且特征重新归一化可以解释为硬0-1掩码引导的重新归一化。为了克服硬0-1掩码和手工掩码更新的局限性,我们提出了一种可学习的注意力图模块,用于学习特征重归一化和模板更新。通过端到端的训练,可学习的注意力图能有效地适应不规则的孔洞和卷积层的传播。
此外,PConv在解码器功能上简单地使用了全一掩模,使得解码器应该同时出现洞和已知区域的幻觉。注意,已知区域的编码器特征将被连接起来,解码器自然只需要专注于孔的修复。因此,我们进一步引入了可学习的反向注意图,使得U-Net的解码器只专注于填补空洞,从而得到了可学习的双向注意图。与PConv相比,经验性地部署可学习的双向注意力图有利于网络训练,使得包含对抗性损失以提高结果的视觉质量是可行的。
在Paris SteetView[6]和Places[40]数据集上进行了定性和定量实验,以评估我们提出的方法。结果表明,我们提出的方法在生成更清晰、更连贯和视觉上可信的修复结果方面表现良好。从图1(F)(G)看,与PConv相比,我们的方法在生成清晰的语义结构和逼真的纹理方面更有效。综上所述,这项工作的主要贡献有三个方面:
a、提出了一种用于图像修复的可学习注意力图模块。与PConv相比,可学习的注意力图更能适应任意不规则的孔洞和卷积层的传播。
b、正向注意力图和反向注意力图结合在一起构成了可学习的双向注意力图,进一步提高了结果的视觉质量。
c、在两个数据集上的实验和真实世界的物体去除实验表明,我们的方法在生成整形、更连贯和视觉上的结果上比最先进的方法有更好的表现。

  • 0
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值