文生图（text-to-image）简史：扩散模型（diffusion models）的崛起与发展

最新推荐文章于 2025-05-07 17:26:27 发布

hao_wujing

最新推荐文章于 2025-05-07 17:26:27 发布

阅读量2.3k

点赞数 11

文章标签：语言模型

本文链接：https://blog.csdn.net/hao_wujing/article/details/144845593

版权

大家读完觉得有意义记得关注和点赞！！！

生成式建模（generative modeling）近几年发展神速，网上也涌现出了大批令人惊叹的纯 AI 生成图片。本文试图总结文生图（text-to-image）领域近几年的发展，尤其是各种扩散模型（diffusion models）—— 它们已经是业界的标杆架构。

1 OpenAI `DALL·E`：起于文本，潜入图像，`2021.01`

1.1 `GPT-3` (2020)：基于 transformer 架构的多模态大语言模型

2020 年，OpenAI 发布了 GPT-3 模型 [1]，这是一个基于 Transformer 架构的多模态大语言模型，能够完成机器翻译、文本生成、语义分析等任务，也迅速被视为最先进的语言建模方案（language modeling solutions）。

Transformer 是如何工作的：600 行 Python 代码实现 self-attention 和两类 Transformer（2019）

GPT 是如何工作的：200 行 Python 代码实现一个极简 GPT（2023）

1.2 `DALL·E` (2021.01)：transformer 架构扩展到计算机视觉领域

DALL·E [7] 可以看作是将 Transformer（语言领域）的能力自然扩展到计算机视觉领域。

如何根据提示文本生成图片？DALL·E 提出了一种两阶段算法：

训练一个离散 VAE (Variational AutoEncoder) 模型，将图像（images）压缩成 image tokens。

VAE 是一种神经网络架构，属于 probabilistic graphical models and variational Bayesian methods 家族。
将编码之后的文本片段（encoded text snippet）与 image tokens 拼在一起（concatenate），训练一个自回归 Transformer，学习文本和图像之间的联合分布。

最终是在从网上获取的 250 million 个文本-图像对（text-image pairs）上进行训练的。

1.3 量化“文本-图像”匹配程度：`CLIP` 模型

训练得到模型之后，就能通过推理生成图像。但如何评估生成图像的好坏呢？

OpenAI 提出了一种名为 CLIP 的 image and text linking 方案 [9]，它能量化文本片段（text snippet）与其图像表示（image representation）的匹配程度。

抛开所有技术细节，训练这类模型的思路很简单：

将文本片段进行编码，得到 TiTi；
将图像进行编码，得到 IiIi；

对 400 million 个 (image, text) 进行这样的操作，

F.g CLIP contrastive pre-training 工作原理 [9]. （文本大意：澳大利亚小狗）。

基于这种映射方式，就能够评估生成的图像符合文本输入的程度。

1.4 小结

DALL·E 在 AI 和其他领域都引发了广泛的关注和讨论。不过热度还没持续太久，风头就被另一个方向抢走了。

2 `Diffusion`：高斯去噪，扩散称王，`2021.12`

Sohl-Dickstein 等提出了一种图像生成的新思想 —— 扩散模型（diffusion models） [2]。套用 AI 领域的熟悉句式，就是

All you need is diffusion.

2.1 几种图像生成模型：GAN/VAE/Flow-based/Diffusion

Fig. 几种生成式模型（generative models）[13]

Diffusion 模型受到了非平衡热力学（non-equilibrium thermodynamics）的启发，但其背后是一些有趣的数学概念。它仍然有大家已经熟悉的 encoder-decoder 结构，但底层思想与传统的 VAE（variational autoencoders）已经不同。

要理解这个模型，需要从原理和数学上描述正向和反向扩散过程。