DALL·E3 模型介绍(2)----通过更好的图像题注改进图像生成

前言

     我们表明,通过对高度描述性的生成图像题注进行训练,可以显著提高文本到图像模型的提示跟随能力。现有的文本转图像模型很难理解详细的图像描述,而且经常会忽略文字或混淆提示的含义。我们假设这个问题源于训练数据集中嘈杂且不准确的图像题注。我们通过训练定制的图像题注生成器(image captioner)来解决这个问题,并使用它来重新捕捉训练数据集。

     然后,我们训练了几个文本转图像的模型,发现对这些合成图像题注的训练可以可靠地提高提示跟随能力。最后,我们利用这些发现构建了 DALL-E 3:一种新的文本转图像生成系统,并在旨在衡量提示跟随、连贯性和美观性的评估中对其性能进行了基准测试,发现它与竞争对手相比具有优势。我们发布了这些评估的样本和代码,以便未来的研究可以继续优化这一方面。

1. 介绍

     生成模型的最新进展使得文本转图像的生成模型实现了显着的性能提升。具体来说,使用基于采样的方法(例如自回归生成模型[27, 2, 1, 20, 30]或使用扩散过程[25,6, 11, 12, 19, 22])来解决问题,使我们能够将图像生成问题分解为小的、离散的步骤,这些步骤更适合神经网络学习。

     与此同时,研究人员已经找到了利用self-attention层[15, 3, 4]堆栈构建图像生成器的方法。将图像生成与卷积的隐式空间偏差分离,使得文本到图像模型能够通过经过充分研究的转换器的缩放特性(scaling properties of transformers)得到可靠的改进。

     结合足够大的数据集,这些方法使得大型文本到图像模型的训练成为可能,这些模型生成图像的质量非常接近于人类所能制作的照片和艺术品。

     该领域的一个突出挑战是图像生成系统的可控性,它常常忽略给定标题中的单词、词序或含义。我们用“提示跟随”这个词来指代这些挑战。

     有几篇论文指出了这个问题:Rassin 等人 (2022) 指出,DALL-E 2 不强制要求每个单词只有一个含义。Saharia 等人 (2022) 建议通过在预先训练的语言模型上的调节来改进它,并引入了一种名为Drawbench 的评估方法,它可以揭示常见的提示跟随问题。Yu 等人 (2022b) 同时介绍了他们自己的基准 Parti Prompts,并表明缩放自回归图像生成器(scaling autoregressive image generators )是提高提示跟随能力的另一种方法。

     在这项工作中,我们提出了一种解决提示跟随的新方法:图像题注改进。我们假设,现有文本转图像模型的一个根本问题是它们所训练的数据集的文本和图像配对质量较差,这一问题已在其他著作(如 Jia et al. (2021))中指出。我们建议通过在数据集中生成改进的图像标题来解决这个问题。我们首先训练一个强大的图像题注生成器(image captioner),它可以生成详细、准确的图像描述。然后,我们将这个图像题注器应用到我们的数据集,以生成更详细的图像题注。最后,我们在改进的数据集上训练文本转图像的模型。

     利用合成数据进行训练并不是一个新概念。例如,Yu 等人 (2022b) 提到他们在训练缩放自回归图像生成器(scaled autoregressive image generators)时应用了这种技术。我们的贡献在于构建一个新颖的描述性图像题注系统,并衡量在训练生成模型时使用合成题注的影响。我们还为提示跟随(prompt following)的一系列评估建立了可重复的性能表现基线。

      本文重点评估了通过对高度描述性的生成图像题注进行训练,DALL-E 3 的提示跟随能力得到改善的情况。它不涵盖 DALL-E 3 模型的训练或实施细节。我们在第 2 节中概述了训练图像题注生成器的策略,在第 3 节中评估了基于原始题注与生成题注训练的文字转图像模型的对比,在第 4 节中评估了 DALL-E 3,并在第 5 节中讨论了局限性和风险。

图 1 – 从 DALL-E 3 中选择的横屏样本:

      在梦幻般的场景中,一只长着毛茸茸、眼神犀利的类人臭鼬在镜头中自信地摆出姿势,身穿动物皮夹克。艺术家巧妙地用数字艺术渲染了这个角色,捕捉到了皮毛和衣服纹理的复杂细节。

     漫画小说中的插图。满月照耀下的繁华城市街道。人行道上熙熙攘攘,行人们享受着夜生活。在街角的摊位上,一位身着标志性天鹅绒斗篷、头发火红的年轻女子正在与脾气坏的老摊主讨价还价。脾气坏的小贩是一位身材高大、老练的男子,穿着笔挺的西装,留着引人注目的小胡子,正兴致勃勃地用蒸汽朋克电话交谈。

图 2 – 从 DALL-E 3 中选择的竖屏方形样本:

     一只淘气的雪貂露出顽皮的笑容,挤进一个大玻璃罐里,周围是五颜六色的糖果。罐子放在温馨厨房的木桌上,温暖的阳光透过附近的窗户照进来。

     一位凶猛的花园小矮人战士,身穿由树叶和树皮制成的盔甲,挥舞着一把小剑和盾牌。他勇敢地站在盛开的花园中的一块岩石上,周围环绕着五颜六色的花朵和高耸的植物。他的脸上带着坚定的表情,随时准备保卫他的花园王国。

      星空下的冰雪景观,壮丽的冰冻瀑布从悬崖上流过。在场景的中心,一团火熊熊燃烧,火焰似乎凝固在原地,在周围的冰雪上投射出闪闪发光的光芒。

数据集重新描述

      我们的文本到图像模型是在由大量键值对 (t, i) 组成的数据集上进行训练的,其中 i 是图像,t 是描述该图像的文本【配对的文本在本文档中通常称为“题注”】。在大规模数据集中,t 通常来自人类作者,他们专注于对图像主题的简单描述,而忽略图像中描绘的背景细节或常识关系。t数据,通常会被忽略的重要细节可能包括:

  1. 厨房水槽或人行道沿线停车标志等物体的存在以及对这些物体的描述。
  2. 场景中物体的位置以及物体的数量
  3. 常识性细节,例如场景中物体的颜色和大小。
  4. 图像中显示的文字。

     更糟糕的是,互联网上的图像题注经常是错误的,描述与图片无关的细节。例如,在通常用于制作图像题注的图文集中,通常会发现广告或网络热词。

     我们推测所有这些缺点都可以通过合成生成的图像题注来解决。在后面的章节中,我们将讨论为检验该理论而开发的程序。

2.1 构建一个图像题注生成器

       图像题注与预测文本的传统语言模型非常相似。因此,我们首先对语言模型做一个简要的描述。首先,使用标记器(tokenizer)将文本字符串分解为离散的tokens。一旦以这种方式分解,我们的语料库的文本部分就可以表示为一个序列,t = [t1,t2,...,tn]。然后,我们可以通过最大化以下似然函数来构建文本的语言模型:

L(t) = X j log P(tj |tj−k, . . . , tj−1; Θ)

       其中 Θ 是需要优化的题注参数。要将此语言模型转变为题注生成器,你只需要对图像进行条件处理。这里的挑战是图像由数千个像素值组成。对于我们当前的神经网络来说,对所有这些信息进行调节是非常低效的,所以我们需要一个压缩的表示空间(representation space)。方便的是,CLIP[17] 正好提供了这一点。因此,给定一个预先训练的 CLIP 图像嵌入函数 F(i),我们增强了语言模型目标如下:

L(t, i) = X j log P(tj |tj−k, . . . , tj−1; zj ; F(i); Θ)

       我们遵循 Yu 等人的方法。(2022a)并使用上述公式在我们的 (t, i) 文本和图像键值对的数据集上对我们的题注生成器进行 CLIP 和语言建模目标的联合预训练。最终得到的模型确实是一个很好的题注生成器,但也表现出了我们在第 2 节中描述的相同问题,例如缺失描述细节。

图3 - 从互联网上抓取的选定图像的实例:

原始文本:现在访问 victorian plumbing.co.uk

简短的合成图像题注:白色的现代浴缸坐落在木地板上。

描述性合成图像题注:这间豪华浴室配有一个现代化的独立式浴缸,表面为洁白的白色。浴缸靠在带有玻璃面板的木质装饰墙上,营造出宁静轻松的氛围。三个吊灯悬挂在浴缸上方,增添了一丝精致。带有木质面板的大窗户提供自然光,而盆栽则增添了一丝绿意。独立式浴缸是这间现代浴室的亮点。

原始文本:他完成了吗...差不多了!

简短的合成图像题注:上面有熨斗的被子。

描述性合成图像题注:被子铺在熨衣板上,上面放着一把熨斗。被子采用拼布设计,布条为淡彩色,并带有花卉图案。熨斗已打开,熨斗头放在被子上面其中一条布条上。被子似乎正在熨烫,熨斗表面可见蒸汽。被子给人一种复古的感觉,颜色为黄色、蓝色和白色,给人一种古朴的感觉。

原始文本:23 (19 of 30) 1200

简短的合成图像题注:一罐大黄利口酒放在鹅卵石铺的地面上。

描述性合成图像题注:大黄片放在玻璃罐中,等待腌制。大黄的颜色从鲜红色到淡绿色不 等,形成了美丽的对比。罐子放在砾石铺的地面上,给图像带来了一种质朴的感觉。

2.1.1 微调题注生成器

     为了改进图像生成数据集中的题注,我们希望使题注生成器偏向于生成有助于文本转图像模型的图像描述。在第一次尝试中,我们构建了一个小型题注数据集,仅描述图像的主要主题。然后,我们继续在这个数据集上训练题注生成器。此过程引起的 θ 更新导致模型偏向于描述图像的主要主题。我们将通过这种微调生成的题注称为“简短合成题注(short synthetic captions)”。

      我们再次重复此过程,创建一个包含长篇、高度描述性题注的数据集,描述我们微调数据集中每幅图像的内容。这些题注不仅描述图像的主要主题,还描述其周围环境、背景、图像中的文本、风格、色彩等。我们再次在此数据集上微调我们的基础题注。我们将此生成的题注称为“描述性合成题注(descriptive synthetic captions)”。

     上面的图例就显示了真实题注、简短合成图像题注和描述性合成图像题注的示例。

      构建完成后,我们将图像题注微调( fine-tunes)应用于文本到图像数据集中的每个图像,从而生成一组用于后续实验的合成题注。

  • 24
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值