- 原文链接:UCTGAN: Diverse Image Inpainting Based on Unsupervised Cross-Space Translation (CVPR 2020). Lei Zhao, Qihang Mo, Sihuan Lin, Zhizhong Wang, Zhiwen Zuo, Haibo Chen, Wei Xing, Dongming Lu [Paper]
本文创新点:
- 将修复后的图像和实例图像投影到低纬的流行空间,形成一对一映射,以确保多样性修复;
- 提出新的交叉语义注意层,利用已知区域和已修复区域之间的远程依赖关系,可以提高修复样本的真实性和外观一致性。
网络结构
网络主要由三个网络模块组成:流形投影模块E1、条件编码器模块 E2和生成模块G。上面的分支由一个流形投影模块E1和一个生成模块G组成,主要作用是将实例图像所在的空间 Si和修复后的图像所在空间Scc投影到一个公共潜在流形空间中,以无监督的方式学习两个空间之间的一对一图像映射Sm。下面的分支由一个条件编码器模块 E2 组成,充当条件标签。
Cross Semantic Attention(交叉语义注意力)
掩码图像的特征与实例图像的特征通过1*1卷积投影到两个特征空间,计算交叉语义注意力。
其中,,,
,
最后,通过一个跳跃连接得到输出,
损失函数
Condition Constraint Loss(条件约束损失)
条件约束损失包括两个部分:外观和感知损失,主要作用是确保修复前后已知区域保持不变。
其中,为训练集,j为特征提取器。
KL Divergence Loss(KL散度损失)
目的是防止模型坍塌。
其中,Zc和Zm分别是多元正态分布空间中Ii和Im的潜在向量。
Reconstruction Loss.
低纬流行损失确保实例图像与对应的修复图像在低维流形空间中相同,
图像重构损失
总的重构损失
对抗损失
总体损失
总结
本文的多样性是由实例图像保证的,相当于在原有的gt基础上,加了一个额外的标签;而transformer中的多样性是通过采样实现的,以p-vqvae为例,从码本中进行特征替换时,选择可能性最大的K个,根据权重随机采样一个进行替换,然后重新计算注意力,再进行采样。