【图像修复】inpainting论文阅读（一）2016-2019

最新推荐文章于 2024-05-24 09:56:28 发布

霜狼氏族2000

最新推荐文章于 2024-05-24 09:56:28 发布

阅读量1k

点赞数 1

文章标签：论文阅读深度学习计算机视觉人工智能神经网络

本文链接：https://blog.csdn.net/qq_46119062/article/details/129680955

版权

Inpainting论文阅读

1.Context Encoders: Feature Learning by Inpainting（CE)（CVPR 2016）

方法：受启发于特征学习，利用运用对抗损失训练的CNN进行修复。

在这里插入图片描述

缺陷：没有充分描述如何处理任意的修复掩模，也没有充分描述如何将该方法应用于高分辨率图像，只能运用于固定小尺寸的图像。

贡献：运用深度学习解决inpainting问题的开山之作。

2.Globally and Locally Consistent Image Completion（ACM TOG 2017）

解决问题：保证生成的图片局部一致性的同时，且具有全局一致性。

方法：使用全局和局部上下文鉴别器，其被训练以区分真实的图像和修补后的图像。全局鉴别器查看整个图像以评估其作为整体是否相干，而局部鉴别器仅查看以完整区域为中心的小区域以确保生成的块的局部一致性。

在这里插入图片描述

缺陷：无法完成结构纹理复杂对象的修复。修复的图片，需要一些简单的后处理。

贡献：可以修复任意形状缺失的图片；提出一种全局和局部一致的图像修复对抗训练方法。

3.Image Inpainting for Irregular Holes Using Partial Convolutions（PConv）(ECCV 2018）

解决问题：运用部分卷积方法，解决了传统卷积方式会导致的伪影，例如色差和模糊。

方法：将有效元素和缺失像素区别对待，卷积层仅对满足条件有效像素进行卷积和规范操作，然后在根据Mask更新规则对Mask进行自动更新，直至Mask中所有值均为1。
在这里插入图片描述

缺陷：

1.mask 的值非0即1，它简单粗暴地把所有像素要么归为有效，要么归为无效。不论有多少个有效像素被前一层的滤波器覆盖，下一层的mask都会被设置为1(即1个有效像素和9个有效像素对于更新当前mask是无差别的)，为什么不能soft mask呢（即mask的值可以是渐变的）？
2.mask的值是根据既定的规则定死的。
3.每一层中所有的通道都共用同一个mask，这限制了灵活性。

贡献：1.提出了部分卷积和掩码自动更新的方式

2.首次用不规则形状的孔洞训练修复模型

4.Generative Image Inpainting with Contextual Attention (Deepfill v1) （CVPR 2018)

解决问题：传统的基于CNN的图像修复网络不能有效地建立起破损区域和离其较远的完好区域之间的联系，常常导致目标区域边界上结构的畸变、纹理的模糊，和周围区域不连贯。这是因为常规卷积的感受野十分有限，比如，一个像素点若要被64个像素点以外的内容影响，那么至少要使用6层3x3的卷积才能够有这么大的感受野。

方法：作者提出了一种语境注意力层（contextual attention layer）来从距离遥远的区域提取近似待修复区域的特征。通俗地说，假设我有一个待修补区域，我们要通过卷积的方法，从整个图像出匹配出和待修补区域比较像的已知信息，然后利用这些信息来重建待修补区域，以此提升网络的远距离信息抓取能力。这里提一句，这和传统的patch-based图像修复算法的核心思想是一致的，到了深度学习里只不过是使用了可微分的卷积、转置卷积等操作实现的。
在这里插入图片描述

与此同时,作者提出了一个二阶段的由粗到细的修复网络：

在这里插入图片描述

第一阶段粗修复网络：使用空洞卷积+重建损失先补出一个模糊粗糙的结果；

第二阶段精修复网络：使用带语境注意力模块空洞卷积+重建损失+全局、局部GAN-GP对抗损失来进一步细化结果。

重建损失中对不同区域的像素赋予了不同的权重，边缘像素的损失系数高于位于缺失区域内像素的损失系数。这是由于缺失区域越往内取值越不确定。

贡献：首次引入注意力模块来辅助inpainting过程。

5.EdgeConnect: Structure Guided Image Inpainting using Edge Prediction（ICCV 2019)

解决问题：当前图像修复技术难以解决大面积区域缺失问题，总是得到过于平滑或者模糊的结果。

方法：提出了二阶段图片修补对抗模型EdgeConnect，整合了边缘生成器与图片修补网络。先由边缘生成器生成出不规则缺失区域的边缘假想图，作为先验结果，然后在这张边缘假想图的基础上，使用图片修补网络对缺失区域进行填充，本质上解耦恢复高频和低频信息的修复区域。

在这里插入图片描述

贡献：提出了一种新的结构引导图像修复方法。

6.Free-Form Image Inpainting with Gated Convolution（Deepfill v2）（ICCV 2019)

解决问题：传统卷积(vanilla convolutions)平等地对待缺损区域和完好区域的像素，这会在缺损区域是任意形状的时候（free-form），在填充边缘周围造成缺陷。Liu Guilin提出的部分卷积（partial conv）虽然改善了这一情况，但是它的mask是不可学习的硬门控（hard-gating），其特性有待改善。

方法：

在这里插入图片描述

1.用门控卷积（gated conv）来代替传统的部分卷积（partial conv）

在这里插入图片描述

从上式可以看到，相比常规的卷积，门控卷积针对每个channel和每个空间位置，学习一种作用于feature map上的动态特征选择机制。

2.用SN-PatchGAN （Spectral Normalized Markovian Discriminator）代替之前一部分工作使用的全局+局部判别器（不适用于任意形状掩膜的修复）。

PatchGAN又称 Markovian discriminiator，由pix2pix一文中提出使用。比较原始的GAN鉴别器，输入图片，输出一个标量值，判别图片是真还是假；而patchGAN输出的是一幅尺寸小于原图的N x N的矩阵，这时每个元素对应着原图的一片感受野，也就是给各感受野patch区域打分，故得名patchGAN。由于这是个全卷积网络，所以不受输入分辨率的限制。

SN：即谱归一化（Spectral Norm），可粗略理解为限制卷积层输出对输入的导数不超过1，来保证神经网络满足1-lipschitz连续性，一方面这是WGAN的要求，另一方面这使得参数变化也会更稳定，不容易出现梯度爆炸，保证网络训练更加稳定。

3.用户干预

本文的模型还具有用户交互的功能：网络的输入包含一个用户交互的sketch通道，这样输入张量总共有5个通道（RGB+mask+sketch）。用户可以在该sketch通道绘制引导线以引导修复后结构的走向，如下图：

在这里插入图片描述

7.Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting（CVPR 2019)

解决问题：现有的研究要么通过复制图像块来填充区域，要么通过上下文区域生成语义一致的块，而忽略了视觉和语义上的合理性。

方法： 在这里插入图片描述

本文提出了一种基于深度生成模型的金字塔上下文编码器网络（PEN-Net）用于图像修复。PEN-Net建立在U-Net结构上，它可以通过从全分辨率输入编码上下文语义并将学习到的语义特征解码回图像来恢复图像。

该网络包含三个关键组件：金字塔上下文编码器、多尺度解码器和对抗训练损失

1.金字塔上下文编码器使用注意力转移网络（ATN）将高层次语义填充到低级特征（具有更高分辨率和更丰富细节）来进一步提高编码效率。

2.多尺度解码器过跳跃连接重构的特征和编码器输出的潜在特征作为输入。一方面，ATN生成的重构特征为缺失区域编码了更多的低层信息。这样的设计使得解码器能够生成具有细粒度细节的视觉上真实的结果。另一方面，即使在缺失区域外找不到对象，通过卷积从紧凑潜在特征获得的特征也能够在缺失区域中合成新的对象。结合这两种特征，解码器能够合成出语义和纹理与图像上下文高度一致的新对象。

贡献：

1.把以往的渐进式修复（两个串联GAN）结构如：HR，CA，CB，EdgeConnect，FA，回归为单个GAN网络。质量的提升，不再依靠GAN网络数量的叠加，而是归结为多尺度特征的充分利用；

2、ATN机制，在Encoder的时候，不同层的feature map就已经通过patch match方法得到了修复（这一点跟CA有点像），这样通过skip connection传到Decoder的是无孔的feature map，自然而然能够提高生成图像的质量。

8.Pluralistic Image Completion

**解决问题：**大多数图像修复方法对每个输入只会产生一个结果（缺失多样性），而事实上会存在很多合理的结果，因为图像修复本就是一个主观性很强的过程。

方法： 在这里插入图片描述

本文引入了一个具有两个并行但连结的训练路径的图像完成新网络。第一条是基于VAE的重建路径，它不仅利用完整实例的真实图像（即可见的局部图像及其隐藏的局部图像），而且还对缺失区域的潜在空间施加了平滑的先验。第二条是一条生成路径，可预测以可见像素为条件的缺失区域的潜在先验分布，从中进行采样以生成各种结果。后一条路径的训练过程根本不试图引导输出向重建实例特定的隐藏像素，而是允许结果的合理性由辅助鉴别器网络驱动，这使得在内容生成中的很大可变性。本文还介绍了通过short+long注意力层来提高结果的质量。

贡献：提出了新的网络结构，允许图像修复生成多样性的结果。