Lama：基于傅立叶卷积的分辨率鲁棒性大掩模修复

禄亿萋

于 2024-08-29 10:01:33 发布

阅读量608

点赞数 17

文章标签：机器学习人工智能图像处理计算机视觉深度学习

本文链接：https://blog.csdn.net/qq_44926214/article/details/141559131

版权

Resolution-robust Large Mask Inpainting with Fourier Convolutions

创新点

为了缓解修复网络和损失函数都缺乏有效的感受野这个问题，提出了大掩模修复（LaMa）。LaMa基于

i）一种新的修复网络架构，该架构使用快速傅立叶卷积（FFC），具有图像范围的感受野；

ii）高感受野感知损失；

iii）大型训练掩码，释放前两个组件的潜力。

网络模型

彩色图像x进行修补，该图像被未知像素m的二进制掩码所掩盖，被掩盖的图像表示为x·m。掩码m与掩码图像x·m堆叠，得到四通道输入张量x′ = stack（x·m，m）。使用前馈修复网络fθ（·），也称之为生成器。取x′，修复网络以完全卷积的方式处理输入，并产生修复的三通道彩色图像x- = fθ（x′）。对从真实的图像和合成生成的掩模获得的（图像，掩模）对的数据集执行训练。

1.早期层中的全局上下文

在具有挑战性的情况下，例如填充大掩模，生成适当的修复需要考虑全局上下文。因此，一个好的架构应该有尽可能广泛的接收域的单位，尽可能早的管道。传统的全卷积模型，例如ResNet，受到有效感受野增长缓慢的影响。由于卷积核通常很小（例如3×3），接收场可能不足，特别是在网络的早期层。因此，网络中的许多层将缺乏全局上下文，并且将浪费计算和参数来创建一个全局上下文。对于宽掩模，特定位置处的发生器的整个感受野可以在掩模内，从而仅观察缺失的像素。对于高分辨率图像，这个问题变得尤其明显。

快速傅立叶卷积（FFC）是最近提出的算子，允许在早期层中使用全局上下文。FFC基于通道快速傅里叶变换（FFT），并且具有覆盖整个图像的感受野。FFC将通道分成两个并行分支：

i）局部分支使用常规卷积

ii）全局分支使用真实的FFT来考虑全局上下文。

真实的FFT只能应用于真实的值信号，而逆真实的FFT确保输出是真实的值。与FFT相比，真实的FFT仅使用频谱的一半。具体而言，FFC采取以下步骤：

a）将真实的FFT 2d应用于输入张量

并连接实部和虚部：

b）在频域中应用卷积块

c）应用逆变换以恢复空间结构

最后，局部（i）和全局（ii）分支的输出被融合在一起。FFC的图示见图2：

FFC的力量：FFC是完全可区分的，易于使用的传统卷积的替代品。由于图像范围的感受野，FFC允许生成器从早期层开始考虑全局上下文，这对于高分辨率图像修复至关重要。这也带来了更好的效率：可训练的参数可以用于推理和生成，而不是“等待”信息的传播。

2.损失函数

修补问题本质上是不明确的。对于相同的缺失区域，可能会有许多看似合理的填充物，特别是当“洞”变宽时。我们将讨论拟议损失的组成部分，这些组成部分一起可以处理问题的复杂性。

（1）高感受野感知损失

朴素的监督损失要求发生器精确地重构地面真实情况。然而，图像的可见部分通常不包含用于掩蔽部分的精确重构的足够信息。因此，由于对修复内容的多个似然模式进行平均，使用朴素监督导致模糊的结果。

相反，知觉损失通过预先训练的基础网络HRF（·）来评估从预测图像和目标图像中提取的特征之间的距离。它不需要精确的重建，允许重建图像的变化。大掩模修复的重点转移到对全局结构的理解上。因此，重要的是要使用一个快速增长的感受野的基础网络。引入了高感受野知觉损失（HRF PL），它使用了一个高感受野基本模型HRF（·）：

其中[·-·]2是逐元素运算，M是顺序两阶段平均运算（层内平均的层间平均)。HRF（x）可以用傅里叶或扩张卷积来实现。

前文问题：训练感知损失的基础网络的借口问题很重要。例如，使用分割模型作为感知损失的主干可以有助于集中在高级信息上，例如对象及其部分。相反，已知分类模型更多地关注纹理，这会引入对高级信息有害的偏差。

3.对抗性损失

使用对抗性损失来确保修复模型fθ（x′）生成看起来自然的局部细节。定义了一个工作在局部补丁级别的D（·），区分“真实的”和“假”补丁。只有与遮罩区域相交的面片才会获得“假”标签。由于有监督的HRF感知损失，生成器很快学会复制输入图像的已知部分，因此我们将生成图像的已知部分标记为“真实的”。最后，使用非饱和对抗损失：

其中x是来自数据集的样本，m是合成生成的掩码，x = fθ（x′）是x′ = stack（x· m，m）的修复结果，sgvar停止梯度w.r.t var，LAdv是要优化的联合损失。

4.总损失函数

在最终损失中，也使用R1梯度惩罚，以及基于鉴别器的感知损失或所谓的特征匹配损失-对网络LDiscPL特征的感知损失。LDiscPL可以稳定训练，并且在某些情况下可以稍微提高性能。

修复系统的最终损失函数：

是所讨论的损失的加权和，其中LAdv和LDiscPL负责生成自然的局部细节，而LHRFPL负责监督信号和全局结构的一致性。

禄亿萋

关注

17
点赞
踩
11

收藏

觉得还不错? 一键收藏
0
评论
Lama：基于傅立叶卷积的分辨率鲁棒性大掩模修复

为了缓解修复网络和损失函数都缺乏有效的感受野这个问题，提出了大掩模修复（LaMa）。LaMa基于一种新的修复网络架构，该架构使用快速傅立叶卷积（FFC），具有图像范围的感受野；高感受野感知损失；大型训练掩码，释放前两个组件的潜力。
复制链接

扫一扫