MirrorGAN: Learning Text-to-image Generation by Redescription 论文解读

MirrorGAN是CVPR2019的文章,用于text to image,该篇文章很好理解,想法也很简单,启发于CycleGAN。但效果很好,尤其是在MS coco数据集上,比最新的attnGAN的效果提高了好多。

相关工作:
attnGAN:[https://blog.csdn.net/weixin_43551972/article/details/90454166]
论文地址:[https://arxiv.org/abs/1903.05854]
GitHub代码尚未公布

在这里我是基于attnGAN做一下学习笔记,仅供参考,如有错误,万请指正。

MirrorGAN主要做了两点创新:

1.STEM模块:在attnGAN 的基础上再次引进global attention,与之前的attnGAN中的local attention相结合,不仅关注局部的细节和语义的生成,更关注全局的细节和语义的生成。
2.GLAM模块:这个亮点很重要,来源于cycleGAN的启发,在生成图片的基础上重新生成对应的描述文本,与原文本进行比较形成文本重构损失(text-semantic recon-struction loss )。

本文的主要结构:

在这里插入图片描述
可以看到在这片文章中的结构和attnGAN中的结构非常相似,主要有三个结构组成:

1.STEM: Semantic Text Embedding Module

在这里插入图片描述
该结构用于生成 ω(单词嵌入向量), s(语句嵌入向量)。其中T = {Tl|l = 0,……,L-1},L表示句子的长度,ω= {ωl|l = 0,……,L-1} ∈ TD x L,s ∈ RD,D 是 ωl和s的维度。用的编码器是和attnGAN论文中是一样的,但文中最后说,如果用最新的BERT model 取得的效果会更好,但是就没有可比性了。
特别地,这里仍然用到了条件增强模块:
在这里插入图片描述

2.GLAM: Global-Local collaborative AttentiveModule in Cascaded Image Generators

在这里插入图片描述
我们用{F0,F1,……,Fm-1}来表示m个可视化特征的转换器,且用{G0,G1,……,Gm-1}来表示m个生成器。可视化特征fi 和生成的图片Ii 可以被表示为:
在这里插入图片描述
fi ∈ RMi x Ni,Ii ∈ Rqi x qi,这里的Fatti包括Atti-1ω和Atti-1s,分别定义如下:
在这里插入图片描述
在这里插入图片描述
其中的Ui-1ωl和Vi-1sca为各自的空间转换矩阵。

3.STREAM: Semantic Text REgeneration andAlignment Module

在这里插入图片描述
主要用到了CNN和RNN,主要公式有:
在这里插入图片描述
这一模块是最大的创新点。首先将图片经过CNN网络形成x-1作为RNN的输入。We主要是将单词嵌入向量映射为可视化特征矩阵。pt+1表示建立在这些单词上的预测的概率。这一部分主要涉及到RNN网络和自然语言处理。期待作者的源码,好进一步研究。
这里有一个小trick:就是与训练STREAM模块,而当训练整个网络时,固定此模块参数不变,这样做的好处是让整个训练过程更加稳定以及节省显卡显存。

目标函数

生成器

在这里插入图片描述
经过试验,λ=20最好。
在这里插入图片描述
在这里插入图片描述

判别器

在这里插入图片描述

试验结果展示

与其他论文中的方法做对比:
在这里插入图片描述
IS得分和R-precision召回率:
在这里插入图片描述
还进行了定性的评估(人工评估):
在这里插入图片描述
之后还进行了消融性试验,目的是来证明自己各个模块提出的重要性,这里就不多做介绍了,可看原文。

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 12
    评论
评论 12
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值