原文链接:
2021 | ICCV 2021 | Parallel Multi-Resolution Fusion Network for Image Inpainting [pdf] |
本文创新点:
提出了一种并行多分辨率的图像修复网络,低分辨率分支提取图像结构特征,高分辨率分支提取图像纹理特征,并使用掩码感知融合模块和注意力引导融合模块进行特征融合。
网络结构
网络分为四个分支进行图像修复,从上到下分辨率依次为256*256,128*128,64*64,32*32。
Mask-Aware Representation Fusion
Inpainting Priorities
对部分卷积进行改进,增加了修复优先级,首先修复具有高优先级的像素,
其中,m是像素p的当前掩码值,q是像素的优先级,sum(Mp) 为当前卷积窗口中未掩码像素的个数。
对于卷积窗口中心的像素x,其优先级q定义为:
其中,l 代表不同的分辨率。sum(Mp) 越大说明像素 x 周围的已知像素越多,网络就可以利用更多的上下文信息对x进行修复。ρl(·) 的形式对于低分辨率层和高分辨率层是不同的。
低分辨率特征图(l=0 )的感受野很大,有利于收集全局结构信息,
其中,np 掩码边缘的法向量, 是基于每个部分卷积层中特征图 X 的通道均值计算的等照度(垂直于梯度的方向)
高分辨率特征图(l=3,2,1 ),有利于收集纹理信息
其中, 代表先将特征图下采样到分辨率的一半,然后再上采样到原始分辨率得到的特征图。上下文残差定义为 ,
Fusing Representation with Masks
在前五个阶段的每个阶段结束时,添加了一个掩码感知表示融合模块来融合不同分辨率的特征图。最多有三种类型的特征图:
- 相同分辨率的(k=l ):直接添加特征图;
- 低分辨率的(k<l ):将特征图上采样到l ;
- 高分辨率的(k>l ):使用3×3步幅为2的卷积。
最后,对特征取均值,
Attention-Guided Representation Fusion
首先将特征图下采样到最低分辨率(32*32),然后将四个特征图拼接,并用拼接后的特征图计算注意力分数a,然后将 a 应用到不同分辨率的特征图以提供全局结构信息:
损失函数
重构损失
对抗损失