- 原文链接:Generating Diverse Structure for Image Inpainting With Hierarchical VQ-VAE (CVPR 2021). Jialun Peng, Dong Liu, Songcen Xu, Houqiang Li [Paper] [Code]
本文创新点:
- 提出了学习结构特征分布的条件自回归网络,能够产生多样性的合理结构;
- 提出了两个特征损失,并用预训练的分层VQ-VAE进行计算。
网络结构
网络分为两个阶段,第一阶段为粗修复阶段,利用条件自回归网络生成多样性的结构特征,第二阶段为细修复阶段,利用结构对纹理进行修复。分层VQ-VAE只在训练过程中使用。
分层VQ-VAE
分层VQ-VAE在VQ-VAE的基础上将全局信息和局部信息分开建模,top level关注图像的全局特征(结构),bottom level关注图像的局部特征(纹理)。预训练的分层VQ-VAE用来计算两个特征损失。
结构生成
结构生成器Gs 使用自回归网络来在离散结构特征上形成条件分布。然后从分布中抽样可以产生不同的结构特征。
自回归网络
令P(x) 为输入数据的概率分布,一张 N = 256 * 256 像素的图像的第一个像素用x0 ,表示,第n个像素用xn-1 表示,则P(x) 就可以表示为,
一旦知道了整张照片的概率分布,就可以从这个分布抽样无数的新图像。具体抽样的过程是先从P(x0) 抽样x0 , 然后根据条件概率依次抽取剩余像素数值,这个过程被称作自回归。
在训练过程中,Gs 利用输入的不完整图像作为条件,并对 上的条件分布进行建模。该分布可以写成
,Gs 的训练损失为,
纹理生成
在训练过程中,纹理生成器的输入结构特征是真实图像的,在测试过程是结构生成器生成的。
注意力机制
首先,计算输入特征与纹理特征之间的欧式距离相似度分数,
放大之后经过softmax得到完整的注意力分数,
最后,利用注意力分数对特征进行重建,
损失函数
总的损失包括重构损失、对抗性损失和两个特征损失。
重构损失
对抗损失
特征损失
Gt的结构特征损失定义为 和
之间的多类交叉熵:
其中, 代表
中第i个特征向量与结构码本中第j个向量之间的距离相似性得分。
为标签,当
的的第i个特征向量属于结构码本的第 j 类时,
为1,否则为0。