T2I论文阅读笔记——DMGAN

最新推荐文章于 2024-08-20 09:24:06 发布

芋圆526

最新推荐文章于 2024-08-20 09:24:06 发布

阅读量1.9k

点赞数 1

分类专栏：论文阅读文章标签：自然语言处理

本文链接：https://blog.csdn.net/qq_26136211/article/details/115048490

版权

DM-GAN通过动态记忆机制解决Multi-stage模型在文本到图像生成中的局限，通过记忆写入门和响应门动态融合文本和图像信息，提高生成图像的质量。在CUB和COCO数据集上，DM-GAN展现出优秀的图像生成效果，如更高的Inception Score和更低的FID分数。

摘要由CSDN通过智能技术生成

DM-GAN Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis论文阅读笔记
官方代码：https://github.com/MinfengZhu/DM-GAN

1. 介绍

近年来，GAN在图像和视频的生成上应用广泛，最具代表性的就是Multi-stage model的方法。

但它存在两个问题：

1. 生成结果很大程度上依赖于initial image的质量，如果initial image的生成结果很差，那么refinement的步骤也不能帮助修改从而生成好的结果。

2. 每个单词在描述图片内容上都有不同等级的信息，而现在的方法使用相同的word表示方法，不利于refinement。

本文介绍了Dynamic Memory Generative Adversarial Network（DM-GAN）来解决上述问题。对于第一个问题，我们采用了一个memory机制，即在GAN里添加一个key-value memory结构。将initial image的粗略特征送入memory module来查询特征，查询结果被用来对initial image进行修正。对于第二个问题，我们映入了一个memory writing gate，用来动态选择与生成图片相关的单词，这使得我们的生成图片与文本描述有很好的相关性。因此，这个memory writing gate被用在了每个image refinement过程中，此外，response gate用来自适应地接受image和memory的信息，而不是直接将二者concat在一起。

本实验在Caltech-UCSD Birds 200（CUB）数据集和COCO数据集上评估。使用Inception Score, Frechet Inception Distance (FID)和R-precision.来评估生成图片的质量。