- ICCV 2021
-本文主要工作:①首次将并行多分辨率网络应用在image inpainting任务上,绘制出合理的纹理。
②提出mask-aware representation fusion
③提出attention-guided representation fusion
④ 提出inpainting priorities修复优先级
- 网络结构
输入为失真图和mask。整个网络分成四个分支进行,对应四个不同的分辨率,从上往下依次为256*256, 128*128,64*64,32*32。较高分辨率有助于学习图像的纹理信息,低分辨率图像有助于学习图像的结构信息。主体网络由六个阶段构成,前五个阶段运用了mask-aware representation fusion 。最后一个阶段应用了attention-guide representation。
主要工作:
-Mask-Aware Representation Fusion
① inpainting priorities
部分卷积的mask更新方式如下:
本文在部分卷积的基础上,进行修改,添加了修复优先级机制。新的mask更新方式如下:
其中m是当前像素p的mask value,sum(Mp)是当前窗口的值之和,q是需要定义的优先级。
对于每一个卷积窗口的中心元素x,q的定义如下:
其中l的取值范围为{3,2,1,0}分别代表四个不同的分辨率{256*256,128*128,64*64,32*32}.
定义的优先级是两部分的乘积:共同优先级sum(Mp)和分辨率优先级pl(x).
共同优先级sum(Mp):用以计算当前卷积窗口的未掩码的像素数量。其数值越大,代表可用像素越多,即窗口内可用的上下文信息越丰富,故而优先级越高。
分辨率优先级pl(x):该部分在不同的分辨率下定义的方式不同。在整个网络中,将前三高分辨率定义为高分辨率层,最后一层定义为低分辨率层。对于低分辨率层,由于拥有比较大的感受野,我们希望它更关注图像的结构信息,定义其p(x):
其中np是在掩码辩越计算出来的法向量,是基于每个部分卷积层中特征图 X 的通道均值计算的等照度(垂直于梯度的方向)。对于高分辨率层,主要对纹理信息进行关注,p(x)定义如下:
其中代表先将特征图 下采样再上采样,再与原值进行相减。(有点类似于拉普拉斯金字塔)。
②Fusing Representation with Masks
在网络前五个阶段的结尾,添加了mask-aware representation fusion操作来集成不同分辨率的特征图。分为三种情况:
(1)分辨率相同(k=l):直接add
(2)低分辨率融合到高分辨率(k<l):将低分辨率特征图上采样再相加
(3)高分辨率融合到低分辨率(k>l):通过3*3 步长为2 的卷积下采样特征图再相加
最后,对特征图求平均值
-Attention-Guided Representation Fusion
为了在多分辨率网络中进一步融合高、低分辨率的特征,提出了注意力引导的融合方法。
具体来说,首先将特征图从高分辨率(256,128,64)下采样到最低分辨率(32),再及逆行concat拼接,而后利用自注意力机制计算注意力分数图A。然后将A运用到所有分辨率的特征图上,以提供全局结构信息。
计算注意力分数公式如下:
融合|:
-LOSS FUNCITON
Ig为最终的输出结果。具体来说,通过将四个不同分辨率的特征图concat在一起(低分辨率特征图通过上采样至256分辨率),而后利用两个卷积层输出最后结果。同时也输出了不同分辨率的图像,其中,代表三幅低分辨率的图像,最后loss funciton定义如下:
overall loss: