OpenAI DALL·E 3文生图模型技术揭秘（建议收藏）

最新推荐文章于 2025-04-24 15:16:35 发布

我有魔法WYMF

最新推荐文章于 2025-04-24 15:16:35 发布

阅读量2k

点赞数 21

分类专栏： AIGC经典论文分享文章标签：人工智能 DALL·E 2

本文链接：https://blog.csdn.net/qq_38318287/article/details/134383740

版权

AIGC经典论文分享专栏收录该内容

9 篇文章

订阅专栏

欢迎来到魔法宝库，传递AIGC的前沿知识，做有格调的分享❗

喜欢的话记得点个关注吧！

DALL·E 3是OpenAI发布的一款文生成图AI系统，它无缝接入ChatGPT，通过接受文本提示作为输入，生成相应的图像作为输出。先来看看效果：

自发布以来，DALL·E 3一直备受关注，许多人对其背后的技术非常好奇。现在，我们就来探讨一下DALL·E 3的技术细节。

DALL·E 3主要是基于DALL·E 2进行了一些改进，研究者们在论文中是这么介绍的：

DALL·E 3 builds on DALL·E 2 by improving caption fidelity and image quality.

因此，在介绍DALL·E 3之前，我们先来回顾一下DALL·E 2的模型架构。

DALL·E 2 介绍

DALL·E 2 这个模型的任务很简单：输入文本提示内容，生成与文本高度对应的图片。该模型主要包括三个部分：CLIP，先验模块prior和decoder模块。其中CLIP又包含text encoder和img encoder。

如下图所示的是DALL·E 2的模型框架，该模型是分阶段进行训练的。

虚线上方展示了CLIP的训练过程，通过该过程可以学习到一个文本和图像的联合表示空间。

虚线下方展示了文本到图像的生成过程：首先将CLIP文本embedding输入到一个自回归或扩散prior中，以生成一个图像embedding，然后使用这个embedding来调节扩散decoder，生成最终的图像。需要注意的是，在prior和decoder的训练中，CLIP模型是被冻结的。

CLIP

DALL·E 2的训练数据是由图像x和对应的图像描述y的pair对(x,y)组成。通过训练CLIP能得到图像x的embedding zi和文本embedding zt。

Prior

A prior P(zi|y) that produces CLIP image embeddings zi conditioned on captions y.

给定图像描述文本y，利用CLIP训练好的text encoder将y编码为zt，同时，利用CLIP训练好的img encoder将图像x编码为zi。在训练prior的过程中预期是能够输入zt产出zi，假设zt经过prior输出的特征为zi'，那么我们自然希望zi'与CLIP产出的zi越接近越好，通过这种方式来更新DALL·E 2的prior模块。

最终训练好的prior，将与CLIP的text encoder串联起来，它们可以根据我们的输入图像文本描述y生成对应的图像embedding zi了。

prior可使用Autoregressive (AR) prior或Diffusion prior，这两种方式在效果上差异不大，但是Diffusion prior在训练效率上优于Autoregressive (AR) prior。因此，最终DALL·E 2选择Diffusion prior。

Decoder

A decoder P(x|zi,y) that produces images x conditioned on CLIP image embeddings zi (and optionally text captions y).

DALL-E 2使用的decoder是改进的GLIDE模型，这个模型可以根据图像编码zi，还原出与图像x语义相同，但又不完全一致的图像。

Generative Stack

decoder允许根据图像embedding来生成图像，而prior则允许学习图像embedding本身的生成模型。将这两个组件堆叠在一起，就能够得到给定图像文本描述y的图像x生成模型P(x|y):

第一个等式成立是因为zi是x的确定性函数。第二个等式成立是因为链式法则。因此，首先通过prior生成zi，然后再使用decoder从zi中解码出图像x。

DALL·E 3 介绍

DALL·E 3延续了DALL·E 2的模型架构，但是它在DALL·E 2的基础上做了进一步的改进。

在文生图领域中，有一个关键的挑战是确保模型能够理解文本并生成与之相匹配的图像。通常情况下，文生成图模型可能会忽视给定的文字描述中的词语、词顺序或具体含义，即所说的"prompt following"问题。作者认为这个问题的关键原因在于训练数据集本身的质量不够高。在训练数据集中，很可能存在许多与图像对应的描述不准确、不精细的情况。因此，为了解决这个问题，需要改进训练数据集的质量，以确保准确地捕捉文本与图像之间的关联。

因此，DALL·E 3采用了一种全新的方法来解决prompt following问题，即caption改进（caption improvement）。首先训练了一个强大的图像-文本描述生成器，这个生成器能够以详细准确的方式描述图像。接着，将这个图像-文本描述生成器应用于文生图的训练数据集，生成更加详细的图像文本描述内容，从而得到了配对质量较高的新数据集。最后，使用这个优质的新数据集来训练文生成图模型。通过这种方法，可以有效地提升文生成图模型的性能和生成质量。