文章目录
Text2Image
Goal
- 从描述图像的文字生成:
- 照片般真实的图片
- 抽象的卡通图片
Evaluation
-
Inception score
- 评估生成图像的质量和多样性(在ImageNet上训练)
- 不能反映生成图片和文本的匹配程度
-
Human evaluation
- 对多个模型的结果进行排序
VAE
Generating images from captions with attention (36 x 36)
Mansimov, Elman, Parisotto, Emilio, Ba, Lei Jimmy, and Salakhutdinov, Ruslan. Generating images from captions with attention. In Proceedings of the ICLR. 2016.
会议:ICLR. 2016.
align-DRAW
- 本文使用自动循环编码加上注意力机制,迭代的根据文章中的单词绘制相应的部分图像
- 可以从在训练集中没有见过的句子生成合理的图像,例如“停车标志在蓝天飞行”
- 利用GAN在最后一步来优化图片
- 生成的图像不够真实,物体区域是一块一块模糊的图像
- 生成的图像是低分辨率36x36的
缺点:
- VAE的缺点也很明显,他是直接计算生成图片和原始图片的均方误差,而不是像GAN那样去对抗来学习,这就使得生成的图片会有点模糊
- 在图像领域中,由于VAE生成的图片偏模糊,因此大家通常更关心VAE作为图像特征提取器的作用。
结果
GAN
Generative adversarial text to image synthesis (64 x 64)
Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak. Generative adversarial text to image synthesis. In Proceedings of ICML 2016
会议:ICML 2016
DC-GAN with encoded text features
- 首次证明了cGAN可以用来比较好的从文本描述中生成肉眼可接受的图像
- 缺乏逼真的细节和图像中对象的一些部位,例如鸟的眼睛和鸟喙(hui)
- 生成了肉眼可以接受的64x64分辨率的图像
- 模型上只有简单的一个GAN结构,如果盲目的上采样增加分辨率,会导致GAN训练不稳定,并且产生无意义的输出
- 也就是模型限制了分辨率的大小
结果
Learning what and where to draw (128 x 128)
Reed, Scott E, Akata, Zeynep, Mohan, Santosh, Tenka, Samuel, Schiele, Bernt, and Lee, Honglak. Learning what and where to draw. In Advances in NIPS 2016.
会议:NIPS 2016
GAWWN (Generative Adversarial What-Where Network)
- 图片中目标对象的(额外信息)位置和尺寸可以帮助提升生成图像的质量和对文本的解释质量
- 产生了128x128的高分辨率图像
Plug & play generative networks: Conditional iterative generation of images in latent space(227x227)
Nguyen, Anh, Clune, Jeff, Bengio, Yoshua, Dosovitskiy, Alexey, and Yosinski, Jason. Plug & play generative networks: Conditional iterative generation of images in latent space. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.