Resolution-robust Large Mask Inpainting with Fourier Convolutions

weixin_41749533

已于 2024-05-07 23:42:34 修改

阅读量65

点赞数

分类专栏： paper 文章标签：深度学习人工智能

于 2024-05-07 23:37:01 首次发布

原文链接：export.arxiv.org

版权

paper 专栏收录该内容

16 篇文章

订阅专栏

论文版本收录时间 2021.11

模型为LaMa

Roman Suvorov1 Elizaveta Logacheva1 Anton Mashikhin1 Anastasia Remizova3∗ Arsenii Ashukha1Aleksei Silvestrov1 Naejin Kong2 Harshith Goka2 Kiwoong Park2 Victor Lempitsky1,41Samsung AI Center Moscow, 2Samsung Research,3School of Computer and Communication Sciences, EPFL,4Skolkovo Institute of Science and Technology, Moscow, Russia

本文中提出的方案可以在修复大片区域，同时对于被复杂的结构也有好的修复效果

文中提到的LaMa的优势：

1/基于快速傅里叶卷积，具有图像范围感受野

2/高感受野感知损失

3/大训练掩码

网络流程：

从流程图中可以看到，LaMa主要流程为

1.将图像以及掩码部分合并得到x’

2.将合并后图像进行降采样

3.将降采样后的图像输入到修复网络 inpainting network（FFC）快速傅里叶卷积

4.将输出的图像进行上采样。得到x^

5.计算x^ 与x’ 之间的损失函数，实际损失函数包含多个内容可以通过论文做确认，进行梯度计算，调整参数。

重复1~5的步骤进行迭代。

其中将FFC详细拆解可以分为局部的卷积以及全局的卷积

最终得到的信息由拆分得到的局部信息以及全局信息合并而成。

其中，局部信息就是由初始拆解的局部3*3的卷积以及全局3*3的卷积获得

全局信息由局部的3*3的卷积以及全局的FFT2d等傅里叶变换相关的操作后合并得到的

文中提到：FFC FFCs 的强大功能对于传统卷积是完全可微分和易于使用的下降替换。由于图像范围的感受野，FFCs 允许生成器从早期层开始考虑全局上下文，这对于高分辨率图像修复至关重要。这也带来了更好的效率：可训练参数可用于推理和生成，而不是“等待”用于信息传播。我们表明 FFC 非常适合捕获在人造环境中常见的周期性结构，例如砖、梯子、窗户等（图 4）。有趣的是，在所有频率之间共享相同的卷积会使模型转移到尺度等方差[4](图5,6)。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。