深度学习之文本生成图片

最新推荐文章于 2025-03-02 17:42:33 发布

Annntn

最新推荐文章于 2025-03-02 17:42:33 发布

阅读量3.5k

点赞数 4

分类专栏：深度学习笔记文章标签：深度学习

本文链接：https://blog.csdn.net/qq_32769481/article/details/84984502

版权

本文探讨了深度学习在文本生成图像领域的应用，包括VAE、GAN和Seq2Seq模型。通过多种方法，如注意力机制和堆叠生成器，从文本描述中生成高质量图像。介绍了各种模型的优缺点，如VAE生成的图像模糊，GAN在高分辨率生成上的挑战，以及Seq2Seq模型在处理复杂场景时的局限性。文章还展示了不同模型的生成结果，并提供了相关模型的论文引用和代码链接。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

- Text2Image

Text2Image

Goal

从描述图像的文字生成：
- 照片般真实的图片
- 抽象的卡通图片

Evaluation

Inception score
- 评估生成图像的质量和多样性（在ImageNet上训练）
- 不能反映生成图片和文本的匹配程度
Human evaluation
- 对多个模型的结果进行排序

VAE

Generating images from captions with attention (36 x 36)

Mansimov, Elman, Parisotto, Emilio, Ba, Lei Jimmy, and Salakhutdinov, Ruslan. Generating images from captions with attention. In Proceedings of the ICLR. 2016.

Paper链接 cited 125

Code链接 star492

会议：ICLR. 2016.

align-DRAW

本文使用自动循环编码加上注意力机制，迭代的根据文章中的单词绘制相应的部分图像
可以从在训练集中没有见过的句子生成合理的图像，例如“停车标志在蓝天飞行”
利用GAN在最后一步来优化图片
生成的图像不够真实，物体区域是一块一块模糊的图像
生成的图像是低分辨率36x36的

缺点：

VAE的缺点也很明显，他是直接计算生成图片和原始图片的均方误差，而不是像GAN那样去对抗来学习，这就使得生成的图片会有点模糊
在图像领域中，由于VAE生成的图片偏模糊，因此大家通常更关心VAE作为图像特征提取器的作用。

结果

GAN

Generative adversarial text to image synthesis (64 x 64)

Reed, Scott, Akata, Zeynep, Yan, Xinchen, Logeswaran, Lajanugen, Schiele, Bernt, and Lee, Honglak. Generative adversarial text to image synthesis. In Proceedings of ICML 2016

Paper链接 cited 634

Code链接 star 283

会议：ICML 2016

DC-GAN with encoded text features

首次证明了cGAN可以用来比较好的从文本描述中生成肉眼可接受的图像
缺乏逼真的细节和图像中对象的一些部位，例如鸟的眼睛和鸟喙（hui）
生成了肉眼可以接受的64x64分辨率的图像
- 模型上只有简单的一个GAN结构，如果盲目的上采样增加分辨率，会导致GAN训练不稳定，并且产生无意义的输出
- 也就是模型限制了分辨率的大小

结果

Learning what and where to draw (128 x 128)

Reed, Scott E, Akata, Zeynep, Mohan, Santosh, Tenka, Samuel, Schiele, Bernt, and Lee, Honglak. Learning what and where to draw. In Advances in NIPS 2016.

Paper链接 cited129

Code链接

会议：NIPS 2016

GAWWN (Generative Adversarial What-Where Network)

图片中目标对象的（额外信息）位置和尺寸可以帮助提升生成图像的质量和对文本的解释质量
产生了128x128的高分辨率图像

Plug & play generative networks: Conditional iterative generation of images in latent space（227x227）

Nguyen, Anh, Clune, Jeff, Bengio, Yoshua, Dosovitskiy, Alexey, and Yosinski, Jason. Plug & play generative networks: Conditional iterative generation of images in latent space. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017.