DM-GAN Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis论文阅读笔记
官方代码:https://github.com/MinfengZhu/DM-GAN
1. 介绍
近年来,GAN在图像和视频的生成上应用广泛,最具代表性的就是Multi-stage model的方法。
但它存在两个问题:
1. 生成结果很大程度上依赖于initial image的质量,如果initial image的生成结果很差,那么refinement的步骤也不能帮助修改从而生成好的结果。
2. 每个单词在描述图片内容上都有不同等级的信息,而现在的方法使用相同的word表示方法,不利于refinement。
本文介绍了Dynamic Memory Generative Adversarial Network(DM-GAN)来解决上述问题。对于第一个问题,我们采用了一个memory机制,即在GAN里添加一个key-value memory结构。将initial image的粗略特征送入memory module来查询特征,查询结果被用来对initial image进行修正。对于第二个问题,我们映入了一个memory writing gate,用来动态选择与生成图片相关的单词,这使得我们的生成图片与文本描述有很好的相关性。因此,这个memory writing gate被用在了每个image refinement过程中,此外,response gate用来自适应地接受image和memory的信息,而不是直接将二者concat在一起。
本实验在Caltech-UCSD Birds 200(CUB)数据集和COCO数据集上评估。使用Inception Score, Frechet Inception Distance (FID)和R-precision.来评估生成图片的质量。
2.相关工作
2.1 Generative Adversarial Networks
省略。
2.2 Memory Networks
它使用显式的存储和attention观念,可以更有效地推理记忆中的答案。它首先,将信息写入外部存储,然后根据关联概率从记忆插槽(memory slot)中读取信息。
Weston等引入了memory network,并且通过逐一搜索支持的记忆来产生输出。
End-to-end memory network是对memory network的进一步拓展,它根据memory和query的乘积加权了每个记忆插槽。
Key-Value Memory Network(KV-MemNN)对key memory和value memory使用不同的编码方式进行推理来理解未结构化的文档。key memory是相应的value memory在预测最终结