原文链接:Learning Pyramid-Context Encoder Network for High-Quality Image Inpainting (CVPR 2019). Zeng, Y., Fu, J., Chao, H., & Guo, B. [Paper][Code]
本文创新点:
- 提出了金字塔上下文编码器(Pyramid-context encoder),利用注意力从高层语义到低层语义,逐步学习区域相似性,并填充特征图。
- 提出了多尺度解码器(Multi-scale decoder),在不同尺度上生成图像。
- 提出了注意力转移网络(Attention Transfer Network),学习高层特征图缺失区域和已知区域之间的相似性,并转移到低层特征图中。
网络结构
金字塔上下文编码器网络(PEN-Net)由三部分组成:金字塔上下文编码器(a)、多尺度解码器(b)和判别器(d)。
Pyramid-context encoder
金字塔上下文编码器利用注意力学习高层特征图的区域相似性,并指导下一层特征区域相似性学习。
其中,f 为ATN操作。
Attention Transfer Network(ATN)
首先,从 中提取patches,并计算缺失区域和已知区域的余弦相似度:
其中, 代表
中已知区域的第i个patch,
代表
中缺失区域的第j 个patch。
然后,通过softmax层,获得相应的注意力分数:
最后,填充其相邻的低级特征图中的缺失区域:
其中, 代表
中已知区域的第i 个patch,
代表缺失区域需要填充的第j个patch。
Multi-scale decoder
多尺度解码器的输入为编码器的特征和ATN重构的特征,输出为 ,
,…,
,
其中,g 代表转置卷积运算,⊕代表特征拼接。
损失函数
Pyramid L1 losses
Pyramid L1 losses是每个尺度上预测图像与真实图像损失之和。
其中,h为1*1的卷积,将 解码成相同大小的RGB图像,
是缩放到与
同样大小的真实图像。
总体损失
其中, 为对抗损失。