MISF:基于多级交互式连体滤波的高保真图像修复

MISF:Multi-level Interactive Siamese Filtering for High-Fidelity Image Inpainting

摘要

        图像级预测滤波是一种广泛应用的图像复原技术,它根据不同的输入场景自适应地预测合适的核函数。本文首先研究了图像级预测滤波在图像修复中的优势和挑战:该方法可以保持局部结构,避免伪影,但无法填充大的缺失区域。在此基础上,提出了一种在深层特征层次上进行过滤的语义过滤方法,该方法填补了缺失的语义信息,但无法恢复细节信息。为了解决这些问题,同时采用各自的优点,提出了一种新的滤波技术,即,多级交互式连体滤波(MIF),它包含两个分支:核预测分支(KPB)和语义图像滤波分支(SIFB)。这两个分支是交互连接的:SIFB为KPB提供多层次特征,而KPB为SIFB预测动态核。最后,该方法充分利用了语义和图像级填充的有效性,实现了高保真修复。此外,讨论了MIFS与基于原始编码器-解码器的修复之间的关系,推断MIFS提供了新颖的动态卷积操作以增强跨场景的高泛化能力。

相关知识

1.图像修复中的预测滤波

        预测滤波是一种广泛使用的图像恢复技术,可以解决图像去噪和去噪任务。在这里,将图像修复公式化为逐像素预测过滤任务:

其中I ∈ R(H×W)是损坏的图像,并且I ∈ R(H×W)是完全的对应物。张量K ∈ R(H×W×N2)包含用于过滤所有像素的HW核。运算是逐像素滤波。可以将上面的等式扩展为:

这里,p和q是图像中像素的坐标,而集合Np包含p的N2个相邻像素。矩阵Kp ∈ RN×N是K的第p个向量,并确定Np中所有像素的权重,这也被称为像素p的内核。直观地说,滤波是通过线性组合其相邻像素来重建像素p。在图像修复中,缺失区域边界的像素由其相邻像素推断。原则是丢失的像素不会破坏局部结构。同时,相关的像素可以用来重建丢失的像素。然而,缺失像素周围的局部结构是多样的,并且可以将它们彼此区分开。为了适应上下文变化,可以训练预测网络来根据输入图像估计所有像素的内核:

其中,(·)是预测网络。将其设置为编码器解码器网络(见图3(a)),并通过图像质量损失。

2.挑战和动机

        使用CelebA数据集等图像修复数据集来训练函数(·)。然后,在一系列图像上评估它,丢失的区域变得更大更厚。在图2中展示了一个例子,并观察到:对于薄而小的缺失区域,预测滤波可以有效地完成缺失像素,并导致高保真结果(见图2(a)和(d))。然而,当缺失区域变得更大和更厚时,远离缺失区域边界的像素不能被恢复。这是因为大的缺失像素破坏了局部结构。因此,图像级滤波不再能够实现重建目标。不同的场景需要预测的内核来适应语义的变化。然而,图像级滤波只能根据像素的局部上下文来重建像素,而不能理解整个场景。例如,当缺失区域非常大时(见图2(c)),图像级过滤无法猜测应该填充哪些像素以使面部具有高保真度。

        一个简单的解决方案的挑战是进行过滤循环。具体来说,可以对修复结果进行一次又一次的滤波,也就是说,使用估计的缺失像素来重建缺失区域内的像素。在图2(h)中示出了用于修复(c)的这种策略的结果。完成的像素在缺失区域的中心周围变得模糊。这主要是因为大量的缺失区域破坏了局部结构。因此,仅重建边界附近的像素,但具有低保真度。重构误差在递归滤波过程期间累积。结合预测过滤和生成网络来解决这个问题。然而,这样的解决方案可以公平地引入一些工件的最先进的基于生成网络的方法。因此,需要一种新的技术来应对这些挑战。

网络模型

1.图像修复中的语义过滤

        基于滤波的图像修复效果不佳,因为大的缺失区域破坏了为基于滤波的恢复奠定基础的局部结构信息。为了解决这个问题,建议将过滤从图像级别扩展到包含语义信息的深层特征级别。直观的想法是,即使图像的大面积丢失,语义信息也可以被保留。如图2(c)中的情况,即使女孩的面部的大面积被遗漏,并且人也可以根据对面部的理解来填充遗漏的区域。为了实现语义过滤,首先采用编码器-解码器网络,其中编码器用于提取受损图像的特征(即,解码器将特征映射到完整的图像。对于编码器,有以下公式:

其中φ(·)是编码器,Fl是从第l层提取的深度特征,即,Fl = φl(Fl−1)。例如,FL是φ(·)的最后一层的输出(即,φL(·))。解码器可以被公式化为:

其中φ−1(·)是解码器。然后,对提取的特征进行语义过滤,如图像级过滤:

其中Klp是用于经由相邻元素对Fl的第p个元素进行滤波的核,使用矩阵K1来包括所有元素式核(即,Kl p)。之后,用等式中的Fl替换Fl-并进行后续操作。为了使核适应不同的场景,还采用预测网络来预测核,如图像级预测滤波:

其中Kl(·)是产生Kl的预测网络。

        在图3(B)中展出了基于语义过滤的图像修复,并训练网络(即,φ(·)、φ−1(·)和φl(·))通过L1、GAN、Style和感知损失函数(如预测滤波)。给出了图3和图4中的填充示例,并有以下观察结果:与图像级预测滤波相比,语义滤波可以填充所有丢失的像素并有效地恢复语义信息。虽然恢复了主要结构,但结果丢失了细节。

2.多级交互式连体过滤

        语义过滤在空间分辨率较低的深层特征层次上填补了缺失的语义信息。因此,它不可避免地丢失了详细信息。为了解决这个问题,一个简单的解决方案是对多级特征进行过滤。例如,对于从编码器提取的所有特征(即,F),可以通过一个排他性预测网络过滤它们中的每一个。然而,这将导致额外的存储器和时间成本,并且不能利用来自不同层的特征的优点。为了解决这个问题,提出了多级交互式连体过滤(MISF),它由两个具有相似架构的分支组成,即,核预测分支(KPB)和语义图像滤波分支(SIFB),它们是包含若干卷积块的编码器-解码器网络。这两个分支是交互链接的:KPB(即,图3(c)中的图(·))将原始图像和SIFB的多个特征作为输入,并预测SIFB的多级内核。SIFB(即,图3(c)中的φ(·))使用这些内核来过滤不同级别的特征。结果,SIFB根据输入动态地改变。在图3(c)中显示了整个框架。

        三种基于滤波的图像修复方法。(a)表示预测图像级滤波,(b)基于语义过滤的修复,(c)多级交互式连体过滤(MISF)。

        具体地,给定损坏的图像I,将其馈送到SIFB,SIFB在图像级和语义级进行过滤(即,在第1层特征处进行滤波)。因此,可以生成完整的图像,

其中Fl = φl(...φ1(I))。用于深度特征和图像的内核(即,K1和K)由KPB预测:

其中Fj = φj(...φ1(I))是来自SIFB的第j层的特征,并且Ej = j(...1(I))来自KPB的第j层。添加了一个卷积层(Conv(·))来调整l(...j+1([Ej,Fj]))来满足核的要求。

        在图3(c)中展示了整个框架。核K1和K分别用于特征级和图像级滤波。直观地,在一个框架中同时进行语义和图像过滤,以填充大的缺失区域并增强细节。此外,利用所有用于语义和图像滤波的预测核都由输入图像I和深度特征Fj驱动,其包含所有可用的空间细节和对整个场景的理解。结果,语义信息和细节像素都可以被适当地重构。在新的设计下,方法实现了高保真的图像修复。如图4所示,MIFS生成了具有丰富细节的语义人脸结构。

3.与编码器-解码器网络的关系

        在本节中,目的是从编码器-解码器网络的角度来解释方法的有效性。可以使用朴素的编解码器网络来直接进行图像修复。例如,将损坏的图像馈送到编码器中,并使用解码器来重建图像。可以通过相同的损耗函数(如滤波)来训练编码器-解码器网络。

        从编码器-解码器网络的角度来看,语义过滤是一种改进的编码器-解码器网络,它包含一个额外的“动态卷积层”(见图3(B))。MIFS进一步使动态过程以多级特征为条件。结果,动态卷积的参数是逐元素的,并且通过预测网络根据不同的图像及其语义来动态地调整。提出了动态卷积在图像修复中的重要性,并基于原始输入和深度特征联合以元素方式预测动态卷积参数。根据图4中的结果,看到所提出的动态操作对于高质量的修补结果是关键的。使用相同的训练设置,朴素的编码器-解码器网络在丢失区域上产生伪像。填充后的像素会导致明显的结构失配,而语义滤波可以适应不同的场景,使填充像素具有合理的结构。此外,完整的MIFS模型同时考虑了语义和图像滤波,在语义和细节恢复方面都取得了较好的效果。

  • 7
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值