MirrorGAN: Learning Text-to-image Generation by Redescription 论文解读

最新推荐文章于 2024-02-13 01:03:01 发布

迷途的CH

最新推荐文章于 2024-02-13 01:03:01 发布

阅读量2k

点赞数

文章标签： MirrorGAN text to image GAN 人工智能

本文链接：https://blog.csdn.net/weixin_43551972/article/details/95100812

版权

MirrorGAN是CVPR2019的文章，用于text to image，该篇文章很好理解，想法也很简单，启发于CycleGAN。但效果很好，尤其是在MS coco数据集上，比最新的attnGAN的效果提高了好多。

相关工作：
attnGAN：[https://blog.csdn.net/weixin_43551972/article/details/90454166]
论文地址：[https://arxiv.org/abs/1903.05854]
GitHub代码尚未公布

在这里我是基于attnGAN做一下学习笔记，仅供参考，如有错误，万请指正。

MirrorGAN主要做了两点创新：

1.STEM模块：在attnGAN 的基础上再次引进global attention，与之前的attnGAN中的local attention相结合，不仅关注局部的细节和语义的生成，更关注全局的细节和语义的生成。
2.GLAM模块：这个亮点很重要，来源于cycleGAN的启发，在生成图片的基础上重新生成对应的描述文本，与原文本进行比较形成文本重构损失（text-semantic recon-struction loss ）。

本文的主要结构：

在这里插入图片描述
可以看到在这片文章中的结构和attnGAN中的结构非常相似，主要有三个结构组成：

1.STEM: Semantic Text Embedding Module

在这里插入图片描述
该结构用于生成 ω（单词嵌入向量）, s（语句嵌入向量）。其中T = {T_l|l = 0,……，L-1},L表示句子的长度，ω= {ω^l|l = 0,……，L-1} ∈ T^{D x L}，s ∈ R^D,D 是 ω^l和s的维度。用的编码器是和attnGAN论文中是一样的，但文中最后说，如果用最新的BERT model 取得的效果会更好，但是就没有可比性了。
特别地，这里仍然用到了条件增强模块：
在这里插入图片描述

2.GLAM: Global-Local collaborative AttentiveModule in Cascaded Image Generators

在这里插入图片描述
我们用{F₀,F₁,……，F_m-1}来表示m个可视化特征的转换器，且用{G₀，G₁，……，G_m-1}来表示m个生成器。可视化特征f_i 和生成的图片I_i 可以被表示为：

f_i ∈ R^{M_i x N_i}，I_i ∈ R^{q_i x q_i}，这里的F_{att_i}包括Att_i-1^ω和Att_i-1^s，分别定义如下：
在这里插入图片描述

其中的U_i-1ω^l和V_i-1s_ca为各自的空间转换矩阵。

3.STREAM: Semantic Text REgeneration andAlignment Module

在这里插入图片描述
主要用到了CNN和RNN，主要公式有：

这一模块是最大的创新点。首先将图片经过CNN网络形成x_-1作为RNN的输入。W_e主要是将单词嵌入向量映射为可视化特征矩阵。p_t+1表示建立在这些单词上的预测的概率。这一部分主要涉及到RNN网络和自然语言处理。期待作者的源码，好进一步研究。
这里有一个小trick：就是与训练STREAM模块，而当训练整个网络时，固定此模块参数不变，这样做的好处是让整个训练过程更加稳定以及节省显卡显存。

目标函数

生成器

在这里插入图片描述
经过试验，λ=20最好。

判别器

在这里插入图片描述

试验结果展示

与其他论文中的方法做对比：
在这里插入图片描述
IS得分和R-precision召回率：

还进行了定性的评估（人工评估）：

之后还进行了消融性试验，目的是来证明自己各个模块提出的重要性，这里就不多做介绍了，可看原文。

迷途的CH

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
12
评论
MirrorGAN: Learning Text-to-image Generation by Redescription 论文解读

MirrorGAN是CVPR2019的文章，用于text to image，该篇文章很好理解，想法也很简单，启发于CycleGAN。但效果很好，尤其是在MS coco数据集上，比最新的attnGAN的效果提高了好多。相关工作：attnGAN： [https://blog.csdn.net/weixin_43551972/article/details/90454166]在这里我是基于attn...
复制链接

扫一扫