原文链接:CR-Fill: Generative Image Inpainting With Auxiliary Contextual Reconstruction (ICCV 2021). Yu Zeng, Zhe Lin, Huchuan Lu, Vishal M. Patel [Paper] [Code]
本文创新点:提出了一个辅助上下文重建任务(训练CR loss),训练网络学习已知区域和缺失区域之间patch的相似性。
网络结构
网络与《Free-Form Image Inpainting with Gated Convolution》结构相似,只是删除了Contextual Attention(CA)层,并引入了reconstruction loss(CR)损失。CA层只能找出最相似的patch,但没有直接的监督信号,无法保证语义一致。
Contextual reconstruction loss
训练系统由一个相似性编码器和一个辅助自编码器网络组成。
相似度编码器将生成器特征作为输入,并对图像区域之间的相似度进行编码。辅助编码器解码器网络生成辅助图像,其中已知区域不变,而缺失区域根据相似性编码器提供的相似性填充相似的已知区域。
相似度编码器计算所有patch之间的相似度
辅助编码器解码器网络生成辅助图像,其中已知区域不变,而缺失区域根据相似性,用已知区域中patch的加权和替换。
其中,为替换后的特征,为patch 经过辅助编码器后的特征,代表已知区域。
然后将替换后的特征图输入到解码器,得到辅助图像。
其中,为进行patch替换后的特征图,为辅助解码器。
CR 损失被定义为辅助图像的修复损失(即 L1 和对抗性损失)。通过最小化 CR 损失,鼓励生成器特征接近最小修复损失的已知图像特征。