论文阅读——UCTGAN: Diverse Image Inpainting based on Unsupervised Cross-Space Translation

  • 原文链接:UCTGAN: Diverse Image Inpainting Based on Unsupervised Cross-Space Translation (CVPR 2020). Lei Zhao, Qihang Mo, Sihuan Lin, Zhizhong Wang, Zhiwen Zuo, Haibo Chen, Wei Xing, Dongming Lu [Paper]

本文创新点:

  1. 将修复后的图像和实例图像投影到低纬的流行空间,形成一对一映射,以确保多样性修复;
  2. 提出新的交叉语义注意层,利用已知区域和已修复区域之间的远程依赖关系,可以提高修复样本的真实性和外观一致性。 

网络结构

网络主要由三个网络模块组成:流形投影模块E1、条件编码器模块 E2和生成模块G。上面的分支由一个流形投影模块E1和一个生成模块G组成,主要作用是将实例图像所在的空间 Si和修复后的图像所在空间Scc投影到一个公共潜在流形空间中,以无监督的方式学习两个空间之间的一对一图像映射Sm。下面的分支由一个条件编码器模块 E2 组成,充当条件标签。

Cross Semantic Attention(交叉语义注意力)

掩码图像的特征与实例图像的特征通过1*1卷积投影到两个特征空间,计算交叉语义注意力。

其中,

最后,通过一个跳跃连接得到输出,

损失函数

Condition Constraint Loss(条件约束损失)

条件约束损失包括两个部分:外观和感知损失,主要作用是确保修复前后已知区域保持不变。

其中,为训练集,j为特征提取器。

KL Divergence Loss(KL散度损失)

目的是防止模型坍塌。

其中,Zc和Zm分别是多元正态分布空间中Ii和Im的潜在向量。

Reconstruction Loss.

低纬流行损失确保实例图像与对应的修复图像在低维流形空间中相同,

图像重构损失

总的重构损失

对抗损失

总体损失

 

总结

本文的多样性是由实例图像保证的,相当于在原有的gt基础上,加了一个额外的标签;而transformer中的多样性是通过采样实现的,以p-vqvae为例,从码本中进行特征替换时,选择可能性最大的K个,根据权重随机采样一个进行替换,然后重新计算注意力,再进行采样。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值