这是李飞飞团队2018年被CVPR接收的一篇文章。PDF下载链接为:https://arxiv.org/abs/1804.01622
(2018.7.6添加)Github代码下载链接:https://github.com/google/sg2im
在这里放上我CSDN的下载链接:
https://download.csdn.net/download/luolan9611/10373565
文件包里有我根据这篇论文做的讲解PPT(如果你要向别人做分享的话,可以在我PPT的基础上进行修改)、这篇论文带注释的PDF,还有这篇论文中提到的几篇论文比如StackGAN,比如GoodFellow大神的GAN的论文等。如有错误,请多指教!
摘要
现有的根据自然语言生成图像的方法,难以生成语言描述中包含多个物体和之间关系的图。于是,作者提出了一个图像生成网络模型,该模型用图卷积处理输入场景图,根据bounding box等计算场景布局,然后把布局用级联细化网络转换成图像。这个网络是针对一对鉴别模型进行训练的,Dimg和Dobj分别用来鉴别真实图像和真实对象,来确保输出的图像真实自然。
引言
现有的由文本生成图像的方法主要是结合递归神经网络(RNN)和生成对抗网络(GAN)来实现的。此前出现了很多效果让人惊叹的由文本转图的方法,其中有代表性的为ICCV 2016 2017的StackGAN方法,它在生成花鸟方面的效果确实Amazing,而且能达到256*256的高分辨率。要知道,在这篇文章之前,生成图像的分辨率几乎都局限在64*64。
下面展示一下StackGAN根据文本描述语言生成的图像效果:
StackGAN生成图像分为两个阶段,第一阶段根据给定描述描绘物体大致轮廓和基本的颜色信息,生成低分辨率的图像。
第二阶段把阶段1的结果和文本描述作为输入,生成带有逼真细节的高分辨率图片。
比如上图中第二列的鸟,This bird is white with some black on its head and wings, and has a long orange beak. 这只鸟是白色的,脑袋和翅膀上带点黑色,有