理解DALL·E 2， Stable Diffusion和 Midjourney工作原理

最新推荐文章于 2025-04-13 07:30:00 发布

javastart

最新推荐文章于 2025-04-13 07:30:00 发布

阅读量3.6k

点赞数 2

分类专栏：深度学习图象处理文章标签：人工智能深度学习计算机视觉

原文链接：https://zhuanlan.zhihu.com/p/589223078

版权

深度学习同时被 2 个专栏收录

142 篇文章

订阅专栏

图象处理

106 篇文章

订阅专栏

原文：理解DALL·E 2， Stable Diffusion和 Midjourney的工作原理 - 知乎

【者按：随着AIGC的兴起，各位小伙伴们对文生图工具DALL-E 2、Stable Diffusion和Midjourney一定并不陌生。本期IDP Inspiration，小白将和大家一同走进这三者背后的技术原理，一探究竟。

以下是译文，Enjoy!】

作者 | Arham Islam

编译 | 岳扬

在过去的几年里，人工智能（AI）取得了极大的进展，而AI的新产品中有AI图像生成器。这是一种能够将输入的语句转换为图像的工具。文本转图像的AI工具有许多，但最突出的就属DALL-E 2、Stable Diffusion和Midjourney了。

01 DALL·E 2及其背后的技术

DALL-E 2由OpenAI开发，它通过一段文本描述生成图像。其使用超过100亿个参数训练的GPT-3转化器模型，能够解释自然语言输入并生成相应的图像。

一幅描述篮球运动员灌篮的油画，具有星云爆炸的效果 - 图片由DALLE 2创作

DALL-E 2主要由两部分组成——将用户输入转换为图像的表示（称为Prior），然后是将这种表示转换为实际的照片（称为Decoder）。

Source: https://www.youtube.com/watch?v=F1X4fHzF4mQ

其中使用到的文本和图像嵌入来自另一个叫做CLIP（对比语言-图像预训练）的网络，这也是由OpenAI研发的。CLIP是一种神经网络，为输入的图像返回最佳的标题。它所做的事情与DALL-E 2所做的相反——它是将图像转换为文本，而DALL-E 2是将文本转换为图像。引入CLIP的目的是为了学习物体的视觉和文字表示之间的联系。

CLIP - 为图像返回最佳的文本

DALL-E 2的工作是训练两个模型。第一个是Prior，接受文本标签并创建CLIP图像嵌入。第二个是Decoder，其接受CLIP图像嵌入并生成图像。模型训练完成之后，推理的流程如下：

输入的文本被转化为使用神经网络的CLIP文本嵌入。
使用主成分分析（Principal Component Analysis）降低文本嵌入的维度。
使用文本嵌入创建图像嵌入。
进入Decoder步骤后，扩散模型被用来将图像嵌入转化为图像。
图像被从64×64放大到256×256，最后使用卷积神经网络放大到1024×1024。

02. Stable Diffusion及其技术

Stable Diffusion是一个文转图的模型，其使用了CLIP ViT-L/14文本编码器，能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散（diffusion）”的过程——从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。

一个可以看到埃菲尔铁塔的皮卡丘高级餐厅 - 图片由Stable Diffusion生成

Stable Diffusion是基于Latent Diffusion Model（LDM）的，LDM是一款顶尖的文转图合成技术。在了解LDM的工作原理之前，让我们先看看什么是扩散模型以及为什么我们需要LDM。

扩散模型（Diffusion Models, DM）是基于Transformer的生成模型，它采样一段数据（例如图像）并随着时间的推移逐渐增加噪声，直到数据无法被识别。该模型尝试将图像回退到原始形式，在此过程中学习如何生成图片或其他数据。

DM存在的问题是强大的DM往往要消耗大量GPU资源，而且由于序列化评估(Sequential Evaluations)，推理的成本相当高。为了使DM在有限的计算资源上进行训练而不影响其质量以及灵活性，Stable Diffusion将DM应用于强大的预训练自动编码器（Pre-trained Autoencoders）。

在这样的前提下训练扩散模型，使其有可能在降低复杂性和保留数据细节之间达到一个最佳平衡点，显著提高视觉真实程度。在模型结构中引入交叉注意力层（cross attention layer），使扩散模型成为一个强大而灵活的生成器，实现基于卷积的高分辨率图像生成。