Pluralistic Image Completion
这是CVPR2019年的一篇论文,文章主要做的是从多元化的层面对图像进行修补。以下内容仅为自己看完文章所做的笔记,不喜勿喷。
该文章项目开源:https://github.com/lyndonzheng/Pluralistic-Inpainting
1、 摘要
对于每个masked输入,大多数图像完成方法只能产生一个结果,但事实上,可能存在很多合理性的结果。这篇文章提出了一种多元图像完成方法—为图像完成生成多种多样可信的解决方案。基于学习的方法所面临的主要挑战是每个标签通常只有一个真实的训练实例,因此,尽管从条件VSEs种采样任然会导致最小的多样性。为了克服这个困难,文章提出了一种新颖且概率原则的框架,该框架具有两条平行的路径。一条是重建路径,它利用给的唯一真实图片来获得缺失部分的先验分布,并从该分布中重建原始图像;另一条是生成路径,其先验条件与重建路径中获得的分布相关;两者均受GAN支持。文章还介绍了一个新的short+long注意力层,该层利用解码器和编码器特征之间的距离关系,从而提高了外观一致性。文中用到的数据集有:建筑物(Paris),人脸 (CelebA-HQ), Places2,和自然图像 (ImageNet)。
2、 介绍
Bertalmio等人介绍了专家保护者修补受损艺术品的三点:
1)根据整个场景想象要填充的语义内容;
2)确保遮蔽区域和未遮蔽区域之间的结构连续性;
3)为缺失的区域填写视觉上逼真的内容。
早期的图像完成工作只专注于Step 2)和3),近期基于学习的方法弥补了早期方法缺失的Step 1),但这些工作只能生成一个“最优”的结果,无法实现结果的多样化。为了获得多样化的结果,一些方法利用CVAE明确地编码一个可以抽样的分布;但是,在特定的图像完成场景中,标准的单路径公式通常会严重低估方差。导致最小化多样性。
基于以上方法存在的问题,本文引入了一个具有两个并行但连结的训练路径的图像完成新网络。第一条是基于VAE的重建路径,它不仅利用完整实例的真实图像(即可见的局部图像及其隐藏的局部图像),而且还对缺失区域的潜在空间施加了平滑的先验。 第二条是一条生成路径,可预测以可