论文版本收录时间 2021.11
模型为LaMa
Roman Suvorov1 Elizaveta Logacheva1 Anton Mashikhin1 Anastasia Remizova3∗ Arsenii Ashukha1Aleksei Silvestrov1 Naejin Kong2 Harshith Goka2 Kiwoong Park2 Victor Lempitsky1,41Samsung AI Center Moscow, 2Samsung Research,3School of Computer and Communication Sciences, EPFL,4Skolkovo Institute of Science and Technology, Moscow, Russia
本文中提出的方案可以在修复大片区域,同时对于被复杂的结构也有好的修复效果
文中提到的LaMa的优势:
1/基于快速傅里叶卷积,具有图像范围感受野
2/高感受野感知损失
3/大训练掩码
网络流程:
从流程图中可以看到,LaMa主要流程为
1.将图像以及掩码部分合并得到x’
2.将合并后图像进行降采样
3.将降采样后的图像输入到 修复网络 inpainting network(FFC)快速傅里叶卷积
4.将输出的图像进行上采样。得到x^
5.计算x^ 与x’ 之间的损失函数,实际损失函数包含多个内容可以通过论文做确认,进行梯度计算,调整参数。
重复1~5的步骤进行迭代。
其中 将FFC详细拆解可以分为局部的卷积以及全局的卷积
最终得到的信息由拆分得到的局部信息以及全局信息合并而成。
其中,局部信息就是由初始拆解的局部3*3的卷积以及全局3*3的卷积获得
全局信息由局部的3*3的卷积以及全局的FFT2d等傅里叶变换相关的操作后合并得到的
文中提到:FFC FFCs 的强大功能对于传统卷积是完全可微分和易于使用的下降替换。由于图像范围的感受野,FFCs 允许生成器从早期层开始考虑全局上下文,这对于高分辨率图像修复至关重要。这也带来了更好的效率:可训练参数可用于推理和生成,而不是“等待”用于信息传播。我们表明 FFC 非常适合捕获在人造环境中常见的周期性结构,例如砖、梯子、窗户等(图 4)。有趣的是,在所有频率之间共享相同的卷积会使模型转移到尺度等方差[4](图5,6)。