DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis 论文解读

最新推荐文章于 2022-08-31 09:36:58 发布

迷途的CH

最新推荐文章于 2022-08-31 09:36:58 发布

阅读量4.4k

点赞数 7

本文链接：https://blog.csdn.net/weixin_43551972/article/details/102983978

版权

这是一篇CVPR 2019的一篇文章，思想简单，但是实验结果是真的简单，服！服！服！！！（但是我为什么想不到呢？我太菜）。文章中介绍了很多模块，也介绍了文章idea的来源，为此我还看了相关的Memory Networks及各种变形（对理解本篇DM-GAN其实用处不大，但是这些论文挺好的，推荐一看。）
论文: https://arxiv.org/abs/1904.01310?context=cs.
GitHub代码: https://github.com/MinfengZhu/DM-GAN.

大家都知道，text-to-image的研究的显存的两个主要问题：

1.显存方法极大的依赖最初合成的图像，然后在这个合成的图像上去提炼和匹配文本描述，如果这个初始图像质量很差，那最终的生成图像质量肯定不好。
2.文本描述中的每个单词对图片的内容的作用都不一样，重要性也不一样，怎样将单词与要生成的图像的不同内容很好的关联，也就是attention提出的主要原因。

这篇论文的主要创新点是提出一个动态记忆模型（a dynamic memory module）去提炼图像，这个模型主要包括以下几个模块：

1.Memory Writing Gate:计算上一层的feature map与单词嵌入向量之间的attention
2.Key-Value Memories:通过Key来检索最相关的Value，并以权重总和的形式输出
3.Responese Gate:将权重和与 feature map融合输出一个新的image feature

整个网络结构为：

在这里插入图片描述
上图的第一个子图没什么需要介绍的的，它与之前的StackGAN、AttnGAN等结构相似。上图中：

其中T是单词的数量， $N_{w}$ 是单词单词特征的维数，N是图像像素的数量， $N_{r}$ 是图像像素特征的维数。
这个网络也是以堆叠（stack）的形式构成的，通过多阶段提炼生成高分辨率图片。我们需要看看Dynamic Memory based Image Refinement的工作流程：
1.Memory Writing Gate
我们需要将重要的文本信息提炼出来，从而在初始图像 $x_{0}$ 的基础上生成高分辨高质量的图像。这里用到一个Memory Writing Gate $g_{i}^{w}$

最低0.47元/天解锁文章

迷途的CH

关注

7
点赞
踩
21

收藏

觉得还不错? 一键收藏
4
评论
DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis 论文解读

这是一篇CVPR 2019的一篇文章，思想简单，但是实验结果是真的简单，服！服！服！！！（但是我为什么想不到呢？我太菜）。文章中介绍了很多模块，也介绍了文章idea的来源，为此我还看了相关的Memory Networks及各种变形（对理解本篇DM-GAN其实用处不大，但是这些论文挺好的，推荐一看。）论文: https://arxiv.org/abs/1904.01310?context=cs....
复制链接

扫一扫