原文链接:MUSICAL: Multi-Scale Image Contextual Attention Learning for Inpainting (IJCAI 2019). Wang, N., Li, J., Zhang, L., & Du, B. [Paper]
本文创新点:
- 提出了一种多尺度注意力模块,通过合并不同大小patch的注意力模块产生的特征图,捕捉多个尺度的信息。
网络结构
网络整体以U-Net为基础,一次性修复图像。
Multi-scale Attention Module
本文采用两种不同大小的patch(3*3,1*1)来计算注意力分数 。
首先计算缺失区域(foreground)和已知区域(background)的余弦相似度,
其次,通过softmax层得到注意力分数s* ;
然后,进行注意力传播;
最后,用反卷积操作得到重构特征图 、 ,再将 、 与 进行拼接。
为了确定当前图像中哪个层次的细节是最重要的,将拼接后的特征图输入到squeeze-and-excitation(SE)模块。最后,用像素卷积将特征图压缩到和输入相同的尺寸。
SE模块首先要计算特征图的平均池化值,然后利用全连接网络计算各个通道的权重。
整个模块可以用下式表示
损失函数
感知损失
利用VGG16的pool1, pool2 和 pool3计算感知损失
风格损失
总体损失