Image Inpainting via Generative Multi-column Convolutional Neural Networks 基于生成式多列卷积神经网络的图像修复（2018）

最新推荐文章于 2024-06-17 18:21:49 发布

飞蛾扑火的蝶

最新推荐文章于 2024-06-17 18:21:49 发布

阅读量132

点赞数

文章标签： cnn 机器学习人工智能

本文链接：https://blog.csdn.net/qq_48387055/article/details/134446644

版权

一、摘要

本文提出了一种生成式多列网络用于图像修复。该网络在一个阶段内以并行的方式合成不同的图像组件。为了更好地表征全局结构，设计了一个置信度驱动的重建损失（根据空间位置约束生成的内容），同时采用隐式多样化MRF正则化来增强局部细节。结合重建和MRF损失的多列网络将来自上下文的局部和全局信息传播到目标图像区域。可以不用后处理。

二、介绍

一种典型的图像修复方法是在一定的补丁块相似度度量下利用像素，分别解决三个重要问题:(1)提取合适的特征来评估补丁块相似度；(2)寻找最近邻补丁；(3)汇总辅助信息。

基于补丁的方法是采用手工提取特征的。基于学习的算法是从数据中学习。从模型的角度来看，图像修复需要对全局信息进行理解。基于CNN的方法利用编码器-解码器网络来提取特征并取得了令人印象深刻的结果。但是仍然有很大的空间将特征视为一组不同的组件，并将全局语义和局部纹理结合起来。

最近邻搜索是生成逼真细节的关键组成部分之一。当缺失区域原本包含与上下文不同的结构时，发现的邻居可能会影响生成过程。测试过程中的最近邻搜索也很耗时，在本文中采用只在训练阶段使用改进的相似度度量进行搜索。

最优结果应该以空间变化的方式进行约束——靠近区域边界的像素选择很少，而中心部分的约束较少。对抗损失已经在最近的方法中被使用来学习多模态。

为了保证边界的一致性，我们对损失值施加了不同的权重。本文设计了一种新的空间多样性权重。

总体框架是生成式多列卷积神经网络(GMCNN)。使用多列结构，多列结构可以将图像分解为具有不同感受野和特征分辨率的组件。与使用裁剪图像的多尺度或粗至细策略不同，我们的多列网络中的分支直接使用全分辨率输入来表征关于全局和局部信息的多尺度特征表示。提出了一种新的隐式多元马尔可夫随机场(ID-MRF)项，该项仅用于训练阶段。而不是直接使用匹配的特征，将这个术语合并为正则化。

三、相关的工作

基于补丁的修复方法按预先定义的顺序复制和粘贴匹配的补丁。为了保持结构，补丁优先级计算指定了补丁填充顺序，这些方法仅使用低级信息，无法产生高质量的语义结构。

最近邻搜索：在深度空间中进行了最近邻搜索与之前的单一向前传递策略相比，该方法为填充区域带来了更清晰的纹理。

四、方法

网络架构

由三个网络组成：①预测结果生成器：生成器网络由三个并行编码器-解码器分支组成，用于从带有掩码的输入图像中提取不同级别的特征，由一个共享的解码器模块将深度特征转换为自然图像空间Y^，这些分支具有不同的感受野和空间分辨率，他们捕获不同级别的信息，以数据驱动的方式进行训练，生成比手工分解更好的特征组件。

②对抗训练的全局和局部判别器

③计算ID-MRF损失的预训练的VGG19网络

本文的框架本质上不同于常用的单流编码器-解码器结构和粗到精的架构。编码器-解码器将图像转换为具有相同大小感受野的公共特征空间，忽略了图像修复涉及不同级别表示的事实。从粗到细的结构修复网络的限制就是从小到大尺度的修复缺失的像素，其中粗级别的误差已经影响了细化。本文的GMCNN并行集成了不同的结构。它们相互补充，而不是简单地继承信息。

ID-MRF（隐式多样性马尔科夫）正则化

本文所提出的网络经过优化，使生成的内容在特征空间中真实图片的最近邻之间的差异最小化。

本文采用相对距离度量来建模局部特征与目标特征集之间的关系。

是缺失区域生成的内容。

和 $Y^{L}$ 是预训练模型的第L层特征层生成的特征。v和s是分别从其中提取的神经块。r来自YL不包括v。（v是生成的，s，r是真实的）。

如果v比其他神经补丁更像s，则RS(v,s)更大。

这种方法的一个明显的益处就是提高了和YL中特征分部之间的相似性

通过最小化ID-MRF损失不仅中的局部神经补丁从YL中找到了相应的候选者，而且特征分布也很接近，有助于捕捉复杂纹理中的变化。

空间多样性重建损失

为了施加基于空间位置的约束，设计了置信度驱动的重建损失，其中靠近填充边界的未知像素比远离填充边界的像素受到更强的约束。我们将已知像素的置信度设置为1，并将未知像素的置信度设置为与到边界的距离有关。为了将已知像素的置信度传播到未知像素，我们使用高斯滤波器g对进行卷积，以创建损失权重掩码Mw。

g的尺寸是64*64，标准偏差是40

最终的重建损失是：

通过考虑已知和未知像素的置信度来利用空间位置及其相对顺序。其结果是逐渐将学习重点从填充边界转移到中心，并平滑学习曲线。

对抗损失

对抗性损失是填补缺失区域的催化剂，在许多创造任务中很常见。本文应用改进的Wasserstein GAN和全局局部判别器。

ID-MRF损失

总损失函数

置信度驱动重建损失+ID-MRF损失+重建损失