T2I论文阅读笔记——DMGAN

DM-GAN通过动态记忆机制解决Multi-stage模型在文本到图像生成中的局限,通过记忆写入门和响应门动态融合文本和图像信息,提高生成图像的质量。在CUB和COCO数据集上,DM-GAN展现出优秀的图像生成效果,如更高的Inception Score和更低的FID分数。
摘要由CSDN通过智能技术生成

DM-GAN Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis论文阅读笔记
官方代码:https://github.com/MinfengZhu/DM-GAN

1. 介绍

近年来,GAN在图像和视频的生成上应用广泛,最具代表性的就是Multi-stage model的方法。

但它存在两个问题:

1. 生成结果很大程度上依赖于initial image的质量,如果initial image的生成结果很差,那么refinement的步骤也不能帮助修改从而生成好的结果。

2. 每个单词在描述图片内容上都有不同等级的信息,而现在的方法使用相同的word表示方法,不利于refinement。

本文介绍了Dynamic Memory Generative Adversarial Network(DM-GAN)来解决上述问题。对于第一个问题,我们采用了一个memory机制,即在GAN里添加一个key-value memory结构。将initial image的粗略特征送入memory module来查询特征,查询结果被用来对initial image进行修正。对于第二个问题,我们映入了一个memory writing gate,用来动态选择与生成图片相关的单词,这使得我们的生成图片与文本描述有很好的相关性。因此,这个memory writing gate被用在了每个image refinement过程中,此外,response gate用来自适应地接受image和memory的信息,而不是直接将二者concat在一起。

本实验在Caltech-UCSD Birds 200(CUB)数据集和COCO数据集上评估。使用Inception Score, Frechet Inception Distance (FID)和R-precision.来评估生成图片的质量。

2.相关工作

2.1 Generative Adversarial Networks

省略。

2.2 Memory Networks

它使用显式的存储和attention观念,可以更有效地推理记忆中的答案。它首先,将信息写入外部存储,然后根据关联概率从记忆插槽(memory slot)中读取信息。

Weston等引入了memory network,并且通过逐一搜索支持的记忆来产生输出。

End-to-end memory network是对memory network的进一步拓展,它根据memory和query的乘积加权了每个记忆插槽。

Key-Value Memory Network(KV-MemNN)对key memory和value memory使用不同的编码方式进行推理来理解未结构化的文档。key memory是相应的value memory在预测最终结

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值