MirrorGAN: Learning Text-to-image Generation by Redescription论文阅读笔记
本人的话:今天能看到演唱会彩排了哈哈哈哈好激动。MirrorGAN的效果比起DM-GAN差上不少,不过有不少可供改进的地方,比如STREAM使用的I2T结构可以换成更先进的。
介绍
T2I可以看做Image Caption(或I2T)的逆向。我们的MirrorGAN便是利用了这种镜像结构,它包含3个模块:STEM,GLAM,STREAM。
STEM生成word-level和sentence-level的embeddings,然后传给GLAM。
GLAM是一个级联结构,从coarse-to-fine生成图片。包含一个局部单词attention和全局句子attention,以此提高生成图片多样性和语义一致性。
STREAM从生成的图片再生文本。
为了端对端地训练,我们使用了两个对抗损失:visual realism 对抗损失。text-image paired semantic consistency对抗损失。
为了利用T2I和I2T的双向调节作用,我们使用了一个基于croo-entropy(CE)的text-semantics reconstruction损失。