Lama:基于傅立叶卷积的分辨率鲁棒性大掩模修复

Resolution-robust Large Mask Inpainting with Fourier Convolutions

创新点

        为了缓解修复网络和损失函数都缺乏有效的感受野这个问题,提出了大掩模修复(LaMa)。LaMa基于

        i)一种新的修复网络架构,该架构使用快速傅立叶卷积(FFC),具有图像范围的感受野;

        ii)高感受野感知损失;

        iii)大型训练掩码,释放前两个组件的潜力。

网络模型

        彩色图像x进行修补,该图像被未知像素m的二进制掩码所掩盖,被掩盖的图像表示为x·m。掩码m与掩码图像x·m堆叠,得到四通道输入张量x′ = stack(x·m,m)。使用前馈修复网络fθ(·),也称之为生成器。取x′,修复网络以完全卷积的方式处理输入,并产生修复的三通道彩色图像x- = fθ(x′)。对从真实的图像和合成生成的掩模获得的(图像,掩模)对的数据集执行训练。

1.早期层中的全局上下文

        在具有挑战性的情况下,例如填充大掩模,生成适当的修复需要考虑全局上下文。因此,一个好的架构应该有尽可能广泛的接收域的单位,尽可能早的管道。传统的全卷积模型,例如ResNet,受到有效感受野增长缓慢的影响。由于卷积核通常很小(例如3×3),接收场可能不足,特别是在网络的早期层。因此,网络中的许多层将缺乏全局上下文,并且将浪费计算和参数来创建一个全局上下文。对于宽掩模,特定位置处的发生器的整个感受野可以在掩模内,从而仅观察缺失的像素。对于高分辨率图像,这个问题变得尤其明显。

        快速傅立叶卷积(FFC)是最近提出的算子,允许在早期层中使用全局上下文。FFC基于通道快速傅里叶变换(FFT),并且具有覆盖整个图像的感受野。FFC将通道分成两个并行分支:

        i)局部分支使用常规卷积

        ii)全局分支使用真实的FFT来考虑全局上下文。

        真实的FFT只能应用于真实的值信号,而逆真实的FFT确保输出是真实的值。与FFT相比,真实的FFT仅使用频谱的一半。具体而言,FFC采取以下步骤:

        a)将真实的FFT 2d应用于输入张量

并连接实部和虚部:

        b)在频域中应用卷积块

        c)应用逆变换以恢复空间结构

        最后,局部(i)和全局(ii)分支的输出被融合在一起。FFC的图示见图2:

        FFC的力量:FFC是完全可区分的,易于使用的传统卷积的替代品。由于图像范围的感受野,FFC允许生成器从早期层开始考虑全局上下文,这对于高分辨率图像修复至关重要。这也带来了更好的效率:可训练的参数可以用于推理和生成,而不是“等待”信息的传播。

2.损失函数

        修补问题本质上是不明确的。对于相同的缺失区域,可能会有许多看似合理的填充物,特别是当“洞”变宽时。我们将讨论拟议损失的组成部分,这些组成部分一起可以处理问题的复杂性。

(1)高感受野感知损失

        朴素的监督损失要求发生器精确地重构地面真实情况。然而,图像的可见部分通常不包含用于掩蔽部分的精确重构的足够信息。因此,由于对修复内容的多个似然模式进行平均,使用朴素监督导致模糊的结果。

        相反,知觉损失通过预先训练的基础网络HRF(·)来评估从预测图像和目标图像中提取的特征之间的距离。它不需要精确的重建,允许重建图像的变化。大掩模修复的重点转移到对全局结构的理解上。因此,重要的是要使用一个快速增长的感受野的基础网络。引入了高感受野知觉损失(HRF PL),它使用了一个高感受野基本模型HRF(·):

其中[·-·]2是逐元素运算,M是顺序两阶段平均运算(层内平均的层间平均)。HRF(x)可以用傅里叶或扩张卷积来实现。

        前文问题:训练感知损失的基础网络的借口问题很重要。例如,使用分割模型作为感知损失的主干可以有助于集中在高级信息上,例如对象及其部分。相反,已知分类模型更多地关注纹理,这会引入对高级信息有害的偏差。

3.对抗性损失

        使用对抗性损失来确保修复模型fθ(x′)生成看起来自然的局部细节。定义了一个工作在局部补丁级别的D(·),区分“真实的”和“假”补丁。只有与遮罩区域相交的面片才会获得“假”标签。由于有监督的HRF感知损失,生成器很快学会复制输入图像的已知部分,因此我们将生成图像的已知部分标记为“真实的”。最后,使用非饱和对抗损失:

其中x是来自数据集的样本,m是合成生成的掩码,x = fθ(x′)是x′ = stack(x· m,m)的修复结果,sgvar停止梯度w.r.t var,LAdv是要优化的联合损失。

4.总损失函数

        在最终损失中,也使用R1梯度惩罚,以及基于鉴别器的感知损失或所谓的特征匹配损失-对网络LDiscPL特征的感知损失。LDiscPL可以稳定训练,并且在某些情况下可以稍微提高性能。

        修复系统的最终损失函数:

是所讨论的损失的加权和,其中LAdv和LDiscPL负责生成自然的局部细节,而LHRFPL负责监督信号和全局结构的一致性。

  • 17
    点赞
  • 11
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值