一、摘要
本文提出了一个单阶段模型,该模型利用空洞卷积的密集组合来获得更大更有效的感受野。得益于该网络的特性,我们可以更容易地从不完整的图像中恢复出大面积的区域。为了更好地训练这个高效的生成器,除了经常使用的VGG特征匹配损失外,还设计了一种新的自导向回归损失来集中不确定区域并增强语义细节。此外,设计了一个几何对齐约束项(特征中心坐标对齐)来补偿基于像素的预测特征与真实图片特征之间的距离。我们还使用局部和全局分支的鉴别器来确保局部和全局内容的一致性。为了进一步提高生成图像的质量,在局部分支上引入鉴别器特征匹配,动态地最小化合成图像与真实图像补丁之间的中间特征的相似性。
二、介绍
图像补全的目的是在图像缺失的区域中生成合适的内容,具有广泛的应用前景。例如,它允许在图像编辑任务中删除不需要的对象,同时填充视觉逼真且语义正确的内容。
图像修复所追求的目标是确保生成的图像具有全局语义结构和精细纹理。此外,完成后的图像应尽可能接近真实图片,特别是建筑物和人脸图像。以往的技术更侧重于解决如何产生整体合理和逼真的图像。GAN或其改进版WGAN-GP缓解了这一问题,该版本经常用于图像修复方法,然而,在细粒度细节方面,仍有很大的提升空间。此外,这些现有的方法没有考虑到输出和目标之间的一致性,即面部图像和建筑图像的语义结构应该尽可能的相似。为了克服上述方法的局限性,我们提出了一种统一的图像修复生成网络,称为密集多尺度融合网络(DMFN)。密集多尺度融合块(DMFB)作为DMFN的基本块,由四个空洞卷积组成,该基本块采用从不同扩张率的各种卷积中提取的分层特征进行组合和融合,获得比一般空洞卷积更好的多尺度特征。同时设计了一个自引导回归损失,根据归一化差异图(输出和目标之间的差异)约束生成内容的低级特征,使生成的图像真实性和语义结构。还提出了一种几何对齐约束,用于惩罚估计图像高级特征的坐标中心偏离真实图片。这种损失可以进一步帮助处理图像的细粒度修复。我们利用相对论平均GAN (RaGAN)改进了判别器。我们在判别器中使用了全局和局部分支,其中一个分支专注于全局图像,而另一个分支专注于缺失区域的局部补丁。为了明确约束输出和真实图像,我们利用属于整个判别器的局部分支的隐藏层通过对抗训练过程来评估它们的差异。
贡献
①自导向回归损失通过差异图引导VGG特征重加权,在一定程度上纠正了语义结构错误,是图像/视频补全任务的新方法。
②提出了几何对齐约束来弥补基于像素的VGG特征匹配损失的不足,以更合理的语义空间位置约束结果。
③提出密集多重融合块(DMFB,增强孔洞卷积)来改善网络表示,在保持可接受的参数大小的同时增加了感受野。我们的生成图像修复框架在具有挑战性的数据集上实现了引人注目的视觉结果。
三、相关的工作
CE提出了上下文编码器,该编码器采用深度生成模型,通过重建和对抗损失从周围环境中预测场景的缺失部分。《Globally and locally》图像修复网络中采用了堆叠空洞卷积来获得更大的空间支持,并借助全局和局部一致的对抗训练方法获得了真实的结果。《Image Inpainting via Generative Multi-column Convolutional Neural Networks》提出了一种生成式多列卷积神经网络(GMCNN),该网络通过采用不同大小的卷积核(即3×3、5×5和7×7)以并行方式利用分支中不同的感受野。该方法性能优越,但由于卷积核数较大,模型参数较大(12.562M)。在图像质量方面(更逼真,更少的伪影),它仍然有改进的空间。
四、方法
网络架构
生成器(生成可信的结果) + 两个分支的判别器(进行对抗训练)
省略了卷积+范数或卷积层之后的激活层,激活函数采用ReLU,最后一次卷积用Tanh。
蓝色虚线框代表上采样,Tconv-4代表4*4的转置卷积,s2代表2的步幅。
采用空洞卷积增加了可以用作输入的区域,而不增加可学习权重的数量。然而,空洞卷积的核是稀疏的,在计算过程中会跳过许多像素。采用大卷积核(如7 × 7)来解决这个问题。然而,会引入大量的模型参数。为了在扩大感受野的同时保证卷积核的密集,我们提出了密集多尺度融合块。密集多尺度融合块中左侧的第一个卷积将输入特征的通道减少到64个以减少参数,然后将这些处理后的特征发送到四个分支提取多尺度特征,采用不同扩张因子的空洞卷积。除x1外,每个xi都有一个对应的3 × 3卷积,用Ki(·)表示。通过累积加法的方式,将各种稀疏的多尺度特征组合在一起,得到密集的多尺度特征。我们用yi表示Ki(·)的输出。组合部分可表示为:
密集多尺度融合块
Conv-3-8表示空洞率为8的3*3卷积
表示具有孔洞的输入图像
M中0代表已知像素,1代表掩码区域
代表网络的预测
代表真实图像
输入:M +
自导向回归损失
自导向回归损失解决语义结构保存问题。采用自导向回归约束来校正图像的语义水平估计。简单地说,我们计算生成的内容与相应的真实值之间的差异映射,从预训练的VGG19网络的特征映射层次导航相似性度量。预训练网络的较深层代表更高层次的语义信息,而较低级别的特征更关注纹理或结构细节,如边缘、角落和其他简单的连词。
通过生成器产生的输出图像与真实值之间的误差图,得到区分具有挑战性和可管理性区域的引导图:
低级特征图包含更多的细节特征。
这种正则化的一个明显好处是可以抑制具有较高不确定性的区域。自导向回归损失是在较低层次的语义空间而不是像素空间进行的。这种方法的优点将在具有愉悦结构信息的感知图像合成中体现出来。(在感知图像合成中,注重保留或强调这些愉悦结构信息可能有助于创造更吸引人、美观的图像。)
可以看作是一个空间注意力映射,更倾向于优化难以处理的区域。
几何对齐约束
高层次特征空间的度量评估只能通过基于像素的损失来实现,如L1或L2。
几何对齐约束可以帮助生成器创建与目标图像在位置上对齐的可信图像。鼓励输出特征中心在空间上接近目标特征中心。
R,R’将修复好的图像和真实图像通过VGG网络传递得到。
特征匹配损失
VGG特征匹配损失比较了训练良好的VGG19模型中间层的激活图。
判别器局部分支特征匹配损失(引入了局部分支)
此损失合理地假设在任何测量下输出图像与真实图像一致。
判别器的隐藏层是可训练的,这与训练良好的VGG19网络略有不同。它可以根据特定的训练数据自适应更新。这种互补特征匹配可以动态提取在VGG模型中可能无法挖掘的特征。
对抗损失
采用相对论平均判别器ESRGAN,这是最新的感知图像超分辨率算法。
C(.)表示最后一个没有sigmoid函数的判别器网络。
总损失函数(六个损失函数)
自导向回归损失的讨论
先前的研究(如CA、GMCNN)在掩码区域中心分配较少的权重,以形成L1损失的变体。CA仅在粗网络(第一阶段)中使用L1损失。GMCNN首先只训练置信度驱动L1损失的模型。在没有GAN辅助的情况下,这些第一阶段的目标只是获得粗略的结果。而应用于VGG特征的自导向回归损失通过当前的指导映射侧重于学习硬区域测量。本文的框架是所有损失在同一时间训练的一阶段模型。