Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting 学习金字塔上下文编码器网络进行高质量图像修复

最新推荐文章于 2024-03-26 08:30:13 发布

东升董事长

最新推荐文章于 2024-03-26 08:30:13 发布

阅读量3.3k

点赞数 2

文章标签： inpainting

本文链接：https://blog.csdn.net/qq_40962619/article/details/102758485

版权

本文提出了一种名为PEN-Net的金字塔上下文编码器网络，用于高质图像修复。PEN-Net基于U-Net结构，通过跨层注意力转移和金字塔填充来确保视觉和语义连贯性。实验显示，PEN-Net在多个数据集上表现出优越的性能，特别是在对抗训练损失和金字塔L1损失的指导下，能够生成逼真的图像修复结果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

摘要

高质量的图像修复需要用合理的内容填充损坏图像中的缺失区域。现有的作品要么通过复制图像补丁来填充区域，要么从区域上下文中生成语义一致的补丁，而忽略了视觉和语义上的合理性都要求很高的事实。本文提出了一种基于深度生成模型的金字塔上下文编码器网络（PEN-Net），用于图像修复。 PEN-Net是基于U-Net结构构建的，该结构可以通过对来自全分辨率输入的上下文语义进行编码，并将学习到的语义特征解码回图像来还原图像。具体来说，我们提出了一种金字塔上下文编码器，该编码器通过从高级语义特征图中的注意力逐步学习区域亲和力，并将学习到的注意力转移到先前的低级特征图中。由于可以通过将注意力从金字塔的深层转移到浅层来填补缺失的内容，因此可以确保图像修复的视觉和语义连贯性。我们进一步提出了一种多尺度解码器，该解码器具有深监督的吡喃峰损失和对抗损失。这样的设计不仅可以使训练快速收敛，而且可以使测试更加真实。在各种数据集上进行的广泛实验显示了所提出网络的优越性能。

引言

图像修复的目的是在给定相应的遮罩[2]的情况下，在损坏的图像中填充缺失的像素。数十年来，这项任务已经引起了广泛的关注，并成为一个有价值且活跃的研究课题[5，12，17]，因为高质量的图像修补可以使广泛的应用受益，例如旧照片还原，物体去除等上。
高质量的图像修补通常不仅需要在视觉上逼真的内容，而且还需要在语义上合理地整合缺失区域的内容[3、5、28、29、31]。现有方法可以大致分为两组。如表1所示，受纹理合成技术启发的第一组尝试填充图像级别的区域[1、5、22]。具体而言，此类方法通常将完整的图像分辨率补丁从源图像中采样并粘贴到缺失区域中，从而可以将结果与细节进行合成。但是，由于缺乏对图像的高级理解，因此此类方法通常无法产生语义上合理的结果。为了解决这个问题，第二组方法提出通过深度神经网络将图像的语义上下文编码为潜在特征空间，然后通过生成模型生成语义相干补丁[13、17、31]。但是，从紧凑的潜在特征中生成视觉逼真的结果仍然是一项挑战，因为通常可以通过堆叠卷积和合并来平滑完整的图像分辨率细节。
为了确保视觉和语义上的连贯性都能得到满足，我们建议在图像和特征级别上都填充区域。首先，我们采用U-Net [19]结构作为骨干，它可以对从低级像素到高级语义特征的上下文进行编码，并将其解码回图像。具体来说，我们提出了一种金字塔上下文编码器网络（PEN-Net），该网络具有三个定制的关键组件，即金字塔上下文编码器，多尺度解码器和对抗训练损失，以提高U-Net在图像修复中的能力。。其次，一旦从图像中编码了紧凑的潜在特征，金字塔上下文编码器在解码之前会先在金字塔路径中填充从高级语义特征到低级特征（具有更丰富的细节）的区域。为此，我们提出了一个注意力转移网络（ATN），以在高级特征图中学习缺失区域内部/外部补丁之间的区域亲和力，然后将相关特征从外部转移到内部（例如，通过亲和力加权复制）第三，提出的多尺度解码器通过跳过连接将来自ATN的构造特征作为输入，并将潜在特征作为最终解码的输入。通过最小化深度监督的金字塔L1损失和对抗损失来优化PEN-Net。
据我们所知，所提出的PEN-Net是第一项能够填补图像级别和特征级别的缺失区域以进行图像修复的工作。我们重点介绍以下方面：

跨层注意力转移。我们提出了一种新颖的网络ATN，以从高级功能地图（例如编码器中的紧凑型潜在特征）中学习区域亲和力。所得的亲和度映射可以指导编码器中相邻低层中的特征转移。
金字塔填充。我们的模型可以通过使用从深到浅的ATN重复进行多次填充孔（取决于编码器的深度），从而可以重新存储具有更细粒度细节的图像。

相关工作

通过基于补丁的方法修复图像。最初提出了基于补丁的方法来进行纹理合成[6，7]。然后将它们应用于图像修复，以填补图像级别的缺失区域[24]。他们通常根据补丁之间的距离标准（例如，欧氏距离，SIFT距离[15]等），将相似的补丁从数据库或未损坏的环境中采样并粘贴到丢失的区域中。 Bertalmio等。提出将基于补丁的纹理合成技术与在图像分解下基于扩散的传播相结合[3]。许多方法试图通过提供更好的填充顺序或最佳补丁来改善性能[5、22、27]。为了快速找到图像补丁之间的相似匹配，提出了Patch- Match [1]。基于补丁的图像修复方法能够产生与上下文相似的清晰结果。但是，由于缺乏对图片的全面了解，因此很难通过基于补丁的方法来生成语义上合理的结果。
通过深度生成模型进行图像修复。用于图像修复的深度生成模型通常将图像编码为潜在特征，在特征级别填充缺失区域，然后将特征解码回图像。最近，深度生成模型已经取得了可喜的结果。基于深度特征学习和广告训练，Context Encoder是最早的深度生成模型之一，能够为语义填充提供合理的结果[17]。引入了引导损失，以使在解码器中生成的特征图与在编码器中生成的地面真相的特征图尽可能接近[28]。 Iizuka等人[30]引入了扩展的卷积来增加完成网络中的接收场。 [9]。设计了特殊的卷积运算，例如PConv [13]和ShCNN [18]，以消除图像中被遮罩区域中的占位符值引起的影响。提出了上下文关注层[31]和Patch-swaplayer [21]，用于在高层特征图中用未损坏区域的相似补丁填充缺失像素。受图像样式化的启发，MNPS提出了在推理过程中使用预训练的分类网络来优化纹理细节的方法[29]。 Isola等。尝试通过通用的图像翻译框架来解决图像修复[10]。利用高级语义特征学习，深度生成模型能够为缺失区域生成语义一致的结果。然而，从紧凑的潜在特征中产生视觉逼真的结果仍然具有挑战性。

金字塔上下编码器网络

金字塔上下文编码器网络（PEN-Net）由三部分组成（如图2所示），即金字塔上下文编码器（a），多尺度解码器（b）和判别器（d）。 PEN-Net建立在U-Net结构的基础上，该结构可以将带有蒙版的损坏图像从完整的输入分辨率像素编码为紧凑的潜在特征，然后将特征解码回图像。
当紧凑型潜在特征编码上下文的语义时，金字塔上下文编码器可以通过将缺少的区域从紧凑型潜在特征填充到低级特征（具有更高的分辨率和更丰富的细节）来进一步提高编码效率。通过在解码之前重复使用提议的注意力转移网络（ATN）（c）多次（根据编码器的深度）来填补漏洞。具体来说，ATN从高级语义特征中学习缺失区域内部/外部的补丁之间的区域亲和力，并将学习到的注意力转移到其先前的特征图中具有较高特征的填充区域（即，通过亲和力从上下文中进行加权复制）解析度。进一步汇总多尺度信息，以在ATN中通过四组具有不同速率的膨胀卷积来完善填充特征。最后，多尺度解码器通过跳过连接和潜在特征将ATN重构的特征作为输入。除了对抗性损失外，金字塔L1损失还用于逐步完善解码器在所有比例下的预测输出。
我们将在第3.1节中介绍金字塔上下文编码器和ATN的详细信息。第3.2节介绍了多尺度解码器和金字塔级L1损耗，然后在3.3节介绍了对抗训练损耗。

3.1金字塔上下文编码器

金字塔上下文编码器
为了提高编码效率，提出了金字塔上下文编码器，用于在解码之前填充缺失区域。一旦学习到紧凑的潜在特征，金字塔上下文编码器通过以金字塔的方式重复使用提出的ATN从高级语义特征到低级特征（具有较高分辨率）来填充缺失区域。假设具有相似语义的像素应具有相似的细节，则在每个level应该用ATN来从high-level的语义特征中学习区域亲和力，因此，学到的区域亲和力可以进一步指导特征以更高的分辨率传输相邻层中的内部/外部缺失区域。
给定L层的金字塔上下文编码器，我们将特征图从深到浅表示为 $\phi ^L，\phi^{L-1}，...，\phi^1$ ，如图2的（a）所示。由ATNs在每层中从深到浅构成的特征表示为：
$\psi^{L-1} = f(\phi^{L-1},\phi^L),$
$\psi^{L-2} = f(\phi^{L-2},\psi^{L-1}),$
$. . .,$
$\psi^{1} = f(\phi^{1},\psi^2)= f(\phi^{1},f(\phi^2,...f(\phi^{L-1},\phi^L)),$
我们将ATN的操作表示为f。通过这种跨层注意力转移和金字塔填充机制，可以确保缺失区域的视觉和语义连贯性。 f（即ATN）的详细信息如下。
注意转移网络
我们遵循最先进的方法，通过使用注意力机制来填补缺失的区域。注意力通常是通过缺失区域内外的Patch之间的区域亲和力（通常为3×3）来获得的，因此可以将外部的相关特征转移（即，通过亲和力从上下文中进行加权复制）到内部区域。如图2（c）所示，ATN首先从高级特征图 $\psi^l$