超详细!字节公开Seedream 2.0文生图技术报告!

🌐 社群导航

🔗 点击加入➡️【AIGC/LLM/MLLM/3D/自动驾驶】 技术交流群

🔗 点击加入➡️【2-3月CCF投稿】交流群

数源AI 最新论文解读系列

图片

论文名:Seedream 2.0: A Native Chinese-English Bilingual Image Generation Foundation Model

论文链接:https://arxiv.org/pdf/2503.07703

开源代码:https://team.doubao.com/tech/seedream

图片

导读

随着扩散模型的显著进步,图像生成领域经历了快速扩张。最近出现的强大模型,如 Flux、SD3.5 、表意文字 2.0(Ideogram 2.0)和 Midjourney 6.1 引发了广泛的商业应用浪潮。然而,尽管现有基础模型取得了显著进展,但它们仍面临一些挑战。

  • 模型偏差:现有模型倾向于特定方面,例如 Midjourney 注重美学,却牺牲了其他方面的性能,如遵循提示或结构正确性。

  • 文本渲染能力不足:在长内容或多语言(尤其是中文)中进行准确文本渲染的能力相当有限,而文本渲染是一些重要场景(如图形设计和海报设计等设计场景)的关键能力。

  • 对中文特色理解不足:缺乏对当地文化(如中国文化)独特特征的深入理解,而这对当地设计师至关重要。

简介

为解决这些局限性,我们推出了Seedream 2.0,这是一款原生中英双语图像生成基础模型,在多个维度表现出色,能够熟练处理中文和英文文本提示,支持双语图像生成和文本渲染。我们开发了一个强大的数据系统以促进知识整合,以及一个兼顾图像描述准确性和丰富性的字幕系统。特别地,Seedream集成了自研的双语大语言模型(LLM)作为文本编码器,使其能够直接从海量数据中学习原生知识。这使得它能够生成具有准确文化内涵和美学表达的高保真图像,无论是用中文还是英文描述。此外,应用了字形对齐的ByT5进行灵活的字符级文本渲染,同时缩放旋转位置编码(Scaled ROPE)在未训练的分辨率上也有良好的泛化能力。多阶段的后训练优化,包括有监督微调(SFT)和基于人类反馈的强化学习(RLHF)迭代,进一步提升了整体性能。通过大量实验,我们证明了Seedream 2.0在多个方面达到了最先进的性能,包括遵循提示、美学效果、文本渲染和结构正确性。此外,Seedream 2.0经过多次RLHF迭代优化,其输出与人类偏好高度一致,这从其出色的ELO得分中可见一斑。此外,它可以轻松适配基于指令的图像编辑模型,如SeedEdit [28],具有强大的编辑能力,能够兼顾遵循指令和图像一致性。

图片

数据预处理

本节详细介绍我们用于预训练的数据处理流程,包括数据构成、数据清洗和过滤、主动学习、添加字幕以及文本渲染数据等各种预处理步骤。这些过程确保最终的预训练数据集具有高质量、大规模和多样性。

1. 数据构成

我们的预训练数据精心选自四个主要部分,确保数据集平衡且全面,如图3所示。

图片

图3 预训练数据系统。

高质量数据。这部分数据包括图像质量极高且知识内容丰富的数据,评估依据为清晰度、美感和来源分布。

图片

图4 我们的知识注入过程概述。

分布维护数据。这部分数据通过以下方式在减少低质量数据的同时保持原始数据的有用分布:

  • 按数据源降采样:减少过度代表的数据源的比例,同时保留它们的相对大小关系。

  • 基于聚类的采样:基于多个层次的聚类对数据进行采样,从代表更广泛语义(如视觉设计)的聚类到代表更精细语义的聚类,例如CD/书籍封面和海报。

知识注入数据。这部分使用已开发的分类法和多模态检索引擎进行知识注入,如图4所示。它包括具有独特中文语境的数据,以提高模型在特定中文场景下的性能。

此外,我们还手动收集了一小批具有独特中文语境的数据。该数据集包括与特定中文人物、动植物、美食、场景、建筑和民俗文化相关的图像 - 文本对。我们使用多模态检索引擎来扩充这些中文知识并将其融入我们的生成模型。

定向补充数据。我们用在文本到图像任务中表现欠佳的数据来补充数据集,例如面向动作的数据和反事实数据(如“脖子是气球的男人”)。我们的主动学习引擎对这些具有挑战性的数据点进行分类,并将其整合到最终的训练集中。

2. 数据清理流程

如图5所示,数据清理程序通过逐步精细的数据过滤方法来确保数据集的质量和相关性。

图片

图5 我们的数据清理流程概述。

第一阶段:总体质量评估。我们使用以下标准对整个数据库进行标注:

  • 总体质量得分:评估图像清晰度、运动模糊和无意义内容。

  • 总体结构得分:评估水印、文本覆盖、贴纸和标志等元素。

  • 光学字符识别(OCR)检测:识别并分类图像中的文本。

不符合质量标准的样本将被剔除。

第二阶段:详细质量评估。此阶段包括专业美学评分、特征嵌入提取、去重和聚类。聚类采用多层次结构,代表不同的语义类别。为每个数据点分配一个语义类别标签,以便后续调整分布。

第三阶段:添加说明和重新添加说明。我们对剩余数据进行分层,并添加说明或重新添加说明。较高级别的数据通常会获得更丰富的新说明,从不同角度进行描述。添加说明过程的详细信息见2.4节。

3. 主动学习引擎

如图6所示,我们开发了一个主动学习系统来改进我们的图像分类器。这是一个迭代过程,逐步优化我们的分类器,确保为训练提供高质量的数据集。

图片

图6 主动学习生命周期流程图。

4. 图像说明添加

添加说明的过程为每张图像提供有意义且上下文准确的描述,生成通用说明和专业说明。

4.1. 通用说明文字

我们用中文和英文编写了简短和详细的说明文字,以确保描述准确且详尽:

  • 简短说明文字:准确描述图像的主要内容,抓住核心知识和要点。

  • 详细说明文字:更具描述性,尽可能详细地阐述图像的多个方面,包括合理的推断和想象。

图片

图7 我们训练数据中的说明文字示例。

4.2. 专业说明文字

除了通用说明文字外,我们还针对各种不同场景设计了专业说明文字:

  • 艺术说明文字:描述风格、颜色、构图和光影交互等美学元素。

  • 文字说明文字:专注于图像中呈现的文字信息。

  • 超现实说明文字:捕捉图像的超现实和奇幻元素,提供更具想象力的视角。

图片

图8 文字渲染:数据预处理流程。

5. 文字渲染数据

如图8所示,我们通过筛选内部数据并使用光学字符识别(OCR)工具选择具有丰富视觉文字内容的图像,构建了一个大规模的视觉文字渲染数据集。主要的数据处理步骤如下:

  • 从内部来源过滤低质量数据。

  • 使用OCR检测并提取文字区域,然后裁剪掉水印。

  • 移除低质量的文字框,保留清晰且相关的文字区域。

  • 使用重新加字幕模型处理提取的文本,以生成高质量的描述。

  • 进一步优化描述,以生成高质量的图像 - 字幕对,最终用于视觉文本渲染任务。

模型预训练

图片

图 9 Seedream 2.0 训练和推理流程概述。

在本节中,我们介绍 Seedream 2.0 模型的训练和推理阶段。主要模块如图 9 所示。

图片

图 10 模型架构概述。

1. 扩散变压器(Diffusion Transformer)

对于输入图像 I,使用自主开发的变分自编码器(Variational Auto - Encoder,VAE)对输入图像进行编码,得到潜在空间表示 。然后将潜在向量  分割成多个块 。这个过程最终将输入图像转换为  个图像标记,这些标记与文本编码器编码的文本标记连接起来,然后输入到变压器块中。

DiT 块的设计主要遵循 Stable Diffusion 3(SD3)[7] 中 MMDiT 的设计原则。每个变压器块仅包含一个自注意力层,该层同时处理图像和文本标记。考虑到图像和文本模态之间的差异,采用不同的多层感知机(MLP)分别处理它们。使用自适应层归一化来调节每个注意力层和 MLP 层。我们采用 QK - 归一化(QK - Norm)来提高训练稳定性,并使用全分片数据并行(Fully Sharded Data Parallel,FSDP)[44] 进行分布式模型训练。

在本文中,我们在文本标记上添加学习到的位置嵌入,并在图像标记上应用二维旋转位置嵌入(2D Rotary Positional Embedding,RoPE)[29]。与以往的工作不同,我们开发了一种二维 RoPE 的变体,即缩放 RoPE(Scaling RoPE)。如图 10 所示,通过根据图像分辨率配置不同的比例因子,位于图像中心的块可以在不同分辨率下共享相似的位置 ID。这使得我们的模型在推理过程中在一定程度上能够推广到未训练过的宽高比和分辨率。

2. 文本编码器

为了对文本到图像生成模型进行有效的提示编码,现有方法([7, 13, 15])通常采用 CLIP 或 T5 作为扩散模型的文本编码器。CLIP 文本编码器([24])能够捕捉与视觉表示或嵌入良好对齐的判别信息,而 T5 编码器([25])具有很强的理解复杂和细粒度文本信息的能力。然而,CLIP 或 T5 编码器都没有很强的理解中文文本的能力,而仅解码器的大语言模型(LLM)通常具有出色的多语言能力。

文本编码器在扩散模型中起着关键作用,特别是对于图像生成中的文本对齐性能。因此,我们旨在利用比 CLIP 或 T5 更强的大语言模型的能力来开发一个强大的文本编码器。然而,仅解码器的大语言模型生成的文本嵌入与 CLIP 或 T5 的文本编码器在特征分布上有很大差异,使得在扩散模型中难以与图像表示良好对齐。这导致在使用基于这种大语言模型的文本编码器训练扩散模型时出现显著的不稳定性。我们开发了一种新方法,通过使用文本 - 图像对数据来微调仅解码器的大语言模型。为了进一步增强在某些具有挑战性的场景(如涉及中文风格细微差别和专业词汇的场景)中生成图像的能力,我们在训练集中收集了大量此类数据。

利用大语言模型的强大能力,并实施精心设计的训练策略,我们的文本编码器在多个方面表现优于其他模型,包括强大的双语能力,使其在长文本理解和复杂指令遵循方面表现出色。特别是,出色的双语能力使我们的模型能够直接从大量的中文和英文数据中学习有意义的本土知识,这是我们的模型能够生成具有准确文化细微差别和中英文描述的美学表达的图像的关键。

3. 字符级文本编码器

考虑到双语文字符号(特别是汉字)的复杂性,我们应用 ByT5 [19, 37] 字形对齐模型对渲染文本的字形内容进行编码。该模型可以提供准确的字符级特征或嵌入,并确保渲染文本的字形特征与文本提示的字形特征一致,这些特征连接起来后输入到 DIT 块中。

渲染内容。实验结果表明,当仅使用ByT5模型对渲染文本的特征进行编码时,尤其是在处理长文本的情况下,可能会导致生成的字符重复和布局混乱。这是由于模型对整体语义的理解不足。为了解决这个问题,对于渲染文本的字形特征,我们同时使用大语言模型(文本编码器,LLM)和ByT5模型对其进行编码。然后,我们使用一个多层感知机(MLP)层将ByT5嵌入投影到与大语言模型文本编码器特征相匹配的空间中。接着,在拼接大语言模型和ByT5的特征后,我们将完整的文本特征输入到去噪扩散变压器(DiT)模块中进行训练。与其他通常同时使用大语言模型特征和光学字符识别(OCR)渲染图像特征作为条件的方法不同,我们的方法仅使用文本特征作为条件。这使得我们的模型能够保持与原始文本到图像生成相同的训练和推理过程,显著降低了训练和推理流程的复杂性。

渲染特征。使用一个重新描述模型来描述渲染文本的字体、颜色、大小、位置和其他特征,该模型通过大语言模型文本编码器进行编码。传统的文本渲染方法通常依赖预设文本框的布局作为扩散模型的条件输入。例如,TextDiffuser - 2 [4]使用额外的大语言模型进行布局规划和编码。相比之下,我们的方法通过重新描述模型直接描述文本的渲染特征,从而实现端到端的训练。这使我们的模型能够直接从训练数据中有效地学习文本的渲染特征,也使得基于编码后的渲染特征学习渲染文本的准确字形特征变得高效。这种方法能够更全面、准确地理解渲染文本,从而生成更精细、高质量的文本渲染输出。

模型后训练

我们的后训练过程包括多个连续阶段:1)持续训练(CT)和有监督微调(SFT)阶段显著提升了模型的美学吸引力;2)基于人类反馈的强化学习(RLHF)阶段通过自主开发的奖励模型和反馈学习算法,显著提高了模型在各个方面的整体性能;3)提示工程(PE)通过利用微调后的大语言模型进一步提高了美学和多样性方面的性能;4)最后,开发了一个精炼器模型来提高基础模型生成的输出图像的分辨率,同时修复一些细微的结构错误。不同后训练阶段的可视化结果如图11所示。

1. 持续训练(CT)

预训练的扩散模型通常难以生成符合期望美学标准的图像,这是因为预训练数据集中固有的美学标准存在差异。为了应对这一挑战,我们通过过渡到一个规模较小但质量更高的数据集来延长训练阶段。这个持续训练(CT)阶段不仅旨在显著提升生成图像的美学效果,还需要保持模型在遵循提示和结构准确性方面的基本性能。CT阶段的数据由两部分组成。

图片

图11 不同后训练阶段的可视化结果。

1.1. 数据
  • 高质量预训练数据:我们通过开发一系列专门的图像质量评估(IQA)模型,从预训练数据集中筛选出大量高质量图像。使用这些模型进行的筛选过程是自动的,无需任何人工干预。

  • 人工精选数据:除了从预训练数据集中收集的高质量数据外,我们还精心从艺术、摄影和设计等不同特定领域收集具有较高美学质量的数据集。这些数据集中的图像需要具有一定的美学魅力,并与预期的图像生成结果相匹配。经过多轮筛选,制作了一个包含数百万张人工挑选图像的精炼数据集。为了避免对如此小的数据集过拟合,我们以合理的采样比例将其与选定的高质量预训练数据联合使用,持续训练我们的模型。

1.2. 训练策略

直接对上述数据集执行条件训练(CT)可以显著提升生成图像在美学方面的表现,但生成的图像与具有吸引人美学效果的真实图像仍存在明显差距。为进一步提升美学表现,我们引入了VMix([34]),它使我们的模型能够在去噪过程中直接学习细粒度的美学特征。我们根据各种美学维度(即颜色、光照、纹理和构图)对每张图像进行标记,然后在条件训练(CT)过程中,将这些标记用作补充条件。实验结果表明,我们的方法可以进一步提升生成图像的美学吸引力。

2. 有监督微调(SFT)

2.1. 数据

在有监督微调(SFT)阶段,我们通过使用少量精心收集的图像,进一步微调我们的模型,使其生成具有出色艺术美感的高保真图像。利用这些收集到的图像,我们专门训练了一个能够通过多轮人工修正精确描述美感和艺术性的字幕模型。此外,我们还为这些图像分配了风格标签和细粒度美学标签(用于VMix方法),以确保包含大多数主流风格的信息。

2.2. 训练策略

除了构建的有监督微调(SFT)数据外,我们在有监督微调(SFT)训练期间还纳入了一定数量的模型生成图像,并将其标记为“负样本”。通过与真实图像样本相结合,模型可以学会区分真实图像和虚假图像,从而生成更自然、逼真的图像。这进而提升了生成图像的质量和真实性。具有高艺术标准的有监督微调(SFT)数据可以显著提升艺术美感,但不可避免地会降低图文对齐的性能,而图文对齐是文本到图像生成任务的基础。为解决这个问题,我们开发了一种数据重采样算法,使模型在提升美学效果的同时仍能保持图文对齐能力。

3. 基于人类反馈的强化学习对齐(RLHF)

在我们的工作中,我们引入了一种专门为扩散模型量身定制的开创性基于人类反馈的强化学习对齐(RLHF)优化程序([14, 41, 42]),该程序结合了偏好数据、奖励模型(RMs)和反馈学习算法。如图12所示,基于人类反馈的强化学习对齐(RLHF)阶段在提升我们的扩散模型在各个方面的整体性能方面起着关键作用,包括图文对齐、美学效果、结构正确性、文本渲染等。

图片

图12 奖励曲线显示,在整个对齐过程中,不同奖励模型的值均呈现出稳定且一致的上升趋势。一些可视化示例表明,基于人类反馈的强化学习对齐阶段至关重要。

3.1. 偏好数据
  • 提示系统:我们开发了一个通用的提示系统,适用于奖励模型(RM)训练和反馈学习阶段。我们精心策划的集合包含从训练字幕和用户输入中获取的100万个多维提示。通过严格的筛选过程,过滤掉模糊或含糊的表达,我们确保提示系统不仅全面,而且内容丰富多样、有深度。

  • 奖励模型(RM)数据收集:我们收集高质量的数据进行偏好标注,这些数据包括由各种训练模型和数据源生成的图像。通过构建跨版本和跨模型的标注流程,我们提升了奖励模型(RMs)的领域适应性,并扩展了其偏好上限。

  • 标注规则:在标注阶段,我们进行多维融合标注(如图文匹配、文本渲染、美学等)。这些综合标注程序旨在提升单个奖励模型的多维能力,防止基于人类反馈的强化学习对齐(RLHF)阶段出现缺陷,并促进在基于人类反馈的强化学习对齐(RLHF)的所有维度上实现帕累托最优。

3.2. 奖励模型
  • 模型架构:我们使用一个支持中英文的CLIP模型作为我们的奖励模型(RMs)。利用CLIP模型强大的对齐能力,我们放弃了像ImageReward那样的额外头部输出奖励方法,而是直接将CLIP模型的输出作为奖励。我们的奖励模型(RMs)主要使用排序损失作为训练损失。

  • 多方面奖励模型:为提升我们模型的整体性能,我们精心设计并训练了三种不同的奖励模型(RMs):一个图文对齐奖励模型、一个美学奖励模型和一个文本渲染奖励模型。特别是,当提示标签与文本渲染相关时,会选择性地启用文本渲染奖励模型,这显著提高了字符级文本生成的精度。

3.3. 反馈学习
  • 学习算法:我们通过直接优化从多个奖励模型(RM)计算得出的输出分数来改进我们的扩散模型,这类似于 REFL([36])范式。深入研究各种反馈学习算法,如 DPO([33])和 DDPO([1])后,我们的研究表明,我们的方法是一种高效且有效的多奖励优化方法。具体而言,我们通过仔细调整学习率、选择合适的去噪时间步长以及实施权重指数移动平均来实现稳定的反馈学习训练。在反馈学习阶段,一个关键策略是对扩散图像变换器(DIT)和集成的大语言模型(LLM)文本编码器进行协调微调。这种联合训练方案显著增强了模型在图文对齐和美学提升方面的能力。

  • 迭代优化:我们的实验涉及在扩散模型和训练好的奖励模型之间进行一系列迭代优化。i) 我们首先利用现有的奖励模型来优化扩散模型。ii) 接下来,我们对优化后的扩散模型进行偏好标注,并训练一个能感知不良情况的奖励模型。iii) 然后,我们利用这个更新后的奖励模型进一步优化扩散模型。上述过程会迭代重复以提升性能。这种迭代方法不仅提高了基于人类反馈的强化学习(RLHF)过程中的性能上限,而且与动态更新奖励模型相比,能确保更高的稳定性和可控性。

4. 提示工程(PE)

普通用户的文本提示通常简单明了,很难直接生成质量令人满意的图像。这一局限性源于我们的扩散模型是用高质量的描述文本进行训练的,这些描述文本通常比人类编写的文本提示复杂得多,但包含更详细的信息。这意味着我们需要重新校准用户提示,以匹配模型的偏好,从而实现最佳性能。为了解决这个问题,我们引入了一种新颖的提示工程(PE)框架,利用内部微调的大语言模型来帮助扩散模型生成更高质量的图像。提示工程框架包括两个关键阶段:有监督微调大语言模型和基于人类反馈的强化学习(RLHF)。我们的实证研究结果表明,我们的提示工程模型使生成图像的美学质量显著提升,图文对齐度提高了 5%,并且生成图像的多样性大幅增加。

4.1. 微调大语言模型

我们的提示工程模型基于一个在中文和英文方面都有强大能力的成熟大语言模型构建。我们使用精心策划的数据集对大语言模型进行有监督微调,在数据集中我们构建成对提示的数据样本( 表示初始输入提示, 表示我们的提示工程模型输出的改写后的提示)。构建的提示对的质量对提示工程的性能很重要。我们设计了两种不同的方法:i) 从用户输入开始::手动改写用户输入提示 ,然后将其输入到一个成熟的文本到图像(T2I)扩散模型中。重复这个过程,直到生成高质量的图像,此时选择相应的改写提示作为 。ii) 从改写提示  开始:我们从训练集中精心挑选带有详细全面描述的优秀图像样本。此外,我们从开源社区收集此类高质量样本或图文对。然后,我们使用内部大语言模型降低收集样本的描述文本质量,以获得初始用户提示 (例如,去除改写描述中与美学相关的描述)。

图片

图 13 提示工程可视化。我们为每个原始提示提供 4 个提示工程提示。

4.2. 提示工程的基于人类反馈的强化学习

我们通过扩散生成对提示工程大语言模型进行基于人类反馈的强化学习,这可以进一步增强提示工程模型,从而提高图像生成结果的美学质量和图文对齐的准确性。具体来说,我们从训练数据中收集一组用户提示。然后,我们对每个用户提示应用当前的提示工程模型,生成多个改写后的提示,再使用训练好的扩散模型用这些提示生成图像。我们根据美学和图文对齐结果从生成的图像中选择一个 <高质量,低质量> 图像对。最后,使用简单偏好优化(SimPO)方法,用相应的提示对进一步训练提示工程模型,使提示工程的性能更符合人类偏好。

5. 优化器

我们的基础模型生成的是512分辨率的图像,需要进一步将其放大到1024分辨率。我们引入了一个细化器模型来对图像进行更高分辨率的缩放。细化器不仅能提高图像分辨率,还能细化结构细节(如人脸的细节)并提升纹理质量,如图14所示。细化器模型基于我们的基础模型构建,其训练过程包括两个阶段:1024分辨率训练和纹理基于人类反馈的强化学习(RLHF),具体细节如下。1024分辨率训练。我们使用CT阶段的数据进行1024分辨率训练,在此过程中,我们排除了分辨率低于1024的图像,同时将高分辨率图像在保持宽高比的情况下调整为1024分辨率。细化器基于人类反馈的强化学习。此外,我们在细化器上执行了类似的基于人类反馈的强化学习过程,以增强生成图像中的纹理细节。数据构建如下。我们手动收集了一组高纹理图像,并对其进行随机降质处理,以构建用于训练的配对数据。然后,我们使用这些降质图像训练一个基于分数的纹理奖励模型(RM),并利用纹理奖励模型来引导细化器模型的优化,以生成更丰富、更有意义的图像。

图片

图14 细化器可视化效果。建议放大以获得最佳可视化效果。

基于指令的图像编辑对齐

早期研究([3])表明,文本到图像模型不仅在生成图像方面表现出色,而且由于其固有的文本条件能力,在理解图像方面也很出色。因此,我们可以将扩散模型改编为基于指令的图像编辑模型,进一步挖掘其为用户带来益处的潜力。

1. 预备知识

正如在SeedEdit([28])中所介绍的,我们提出了一种新的数据生成过程、一种新颖的因果扩散框架以及一种迭代优化的训练策略。具体而言,在数据生成方面,我们提出了一种类似于InstructPix2Pix([2])或Jedi([40])的策略,这有助于确保数据具有更广泛的可变性,包括刚性和非刚性修改。在架构方面,我们使用扩散模型作为图像编码器,这与IP - Adaptor([38])等方法中常用的编码器(如CLIP([5])或DINO([23]))不同。这是因为我们希望生成特征和图像理解特征在同一潜在空间中对齐。

SeedEdit生成的编辑后图像与原始输入在美学和构图上保持高度一致。最后,我们采用迭代优化策略,以更好地融合图像和文本特征来生成新图像。通过融合这些技术,SeedEdit在合成图像和真实图像的编辑质量上都表现出色,超越了其他最先进的学术和产品基准。我们在本文中概述的方法称为SeedEditV1.0,本技术报告中详细介绍了后续的改进。

2. 增强人类身份保留

SeedEditV1.0推出后,我们发现它在保留真实图像中人脸身份方面表现有限,特别是当人脸较小或受到扩散模型强烈的文本条件偏差影响时。例如,将一个人置于“泰姬陵”前可能会使他们的外貌接近印度人脸型。由于人脸特征对我们的应用至关重要,我们引入了两项改进来解决这个问题。

图片

图15 SeedEdit的定量消融实验。左:GPT分数与CLIP图像相似度。右:GPT分数与AdaFace相似度。

多专家数据融合。鉴于生成的数据通常包含生成身份的不现实变化,我们从两个来源收集了包含真实身份的额外数据集。首先,我们使用内部人脸专家工作流程(如身份/图像属性引导模型和背景替换模型)创建了数据集。其次,我们收集了大量保留身份的真实图像数据集,其中的人物在不同的环境和相机设置下拍摄。在训练过程中,这些数据集根据特定的数据提示前缀有条件地合并,以确保原始数据的质量和分布不受影响。

人脸感知损失。对于能很好保留人脸身份的图像对,我们通过使用如AdaFace([12])这样的人脸相似度测量模型实施额外的感知损失,进一步增强模型保持人脸特征的能力。通过将扩散损失与人脸损失相结合,更新后的SeedEdit模型显著提高了人脸相似度。

数据优化。最后,我们使用更强大的数据过滤器和更多样化的采样策略进一步提高数据质量,从而得到一个改进的编辑模型。在我们的实验中,我们构建了一个包含160张图像的编辑验证集,其中包括真实图像和生成图像,涵盖了各种编辑操作。图15展示了专家数据和人脸感知损失对SeedEdit改进的影响,每个组件都有显著提升,表明这两种策略都改善了结果。示例见图16。

模型加速

1. 分类自由引导(CFG)和步数蒸馏

在扩散模型推理阶段,通常采用无分类器引导(Classifier-Free Guidance,CFG)策略,这需要每个时间步进行两次模型推理来生成图像。为了解决这种低效问题,同时保持引导尺度参数化,我们提出了一种新颖的引导尺度嵌入策略。我们的步骤蒸馏框架基于Hyper - SD [27]构建,该方法引入了一种新颖的轨迹分段一致性蒸馏(Trajectory Segmented Consistency Distillation,TSCD)方法,用于高效的扩散模型压缩。TSCD采用分层细化策略,通过三个连续的操作阶段将轨迹保留和重新表述机制相结合:首先,Hyper - SD将完整的时间步范围划分为个段(初始为)进行局部一致性学习,通过边界感知的时间采样确保每个段保持原始的常微分方程(ODE)轨迹特征。然后,我们在训练阶段逐渐减少段数,实现从局部一致性到全局一致性的平滑过渡。这种分层细化减轻了误差累积问题,而误差累积是单阶段一致性蒸馏方法中常见的问题。

图片

图16 SeedEdit修订的定性比较。我们在此展示了当前方法显著提高了身份(ID)保留率。

此外,我们自适应地平衡近端预测的均方误差(MSE)和发散目标的对抗损失。实验证实了稳定性和效率的提升。整合这些阶段,TSCD在保持高保真生成的同时增强了扩散模型的压缩效果。

2. 量化

我们通过算子融合和对密集操作的微调,显著提高了计算密度并减少了内核内存访问。这些努力使算子的性能提升了5%至。我们还支持注意力(Attention)和通用矩阵乘法(GEMM)量化,并提出了一种自适应混合量化方法。最初,采用离线平滑方法来优化层内分布的异常值。随后,我们基于敏感度指标为不同层、位宽和粒度实施了搜索策略。此外,我们提出了一种轻量级量化训练方案。具体而言,我们在几个小时内微调量化尺度。这种方法帮助低位模型适应不同的激活变化,并进一步减轻了难以平滑的敏感层的量化损失。为了在图形处理器(GPU)上实现加速优势,我们优化了各种低位混合粒度量化内核。

模型性能

我们对我们的模型和几个最先进(SOTA)的文本到图像模型进行了比较分析。对于英文提示的性能,我们将我们的模型与最近的商业模型进行比较,包括GPT - 4o ([22])、Midjourney v6.1 ([21])、FLUX1.1 Pro ([13])和Ideogram 2.0 ([10])。对于中文提示的性能,我们比较了包括GPT - 4o ([22])、Kolors 1.5 ([30])、MiracleVision 5.0 ([20])和混元(2024年12月 [31])在内的模型。同时使用人工和机器评估来提供更全面的研究。结果表明,我们的模型在中文和英文方面都表现出卓越的能力,在大多数方面获得了最高分,成为最广泛受青睐的模型。进一步针对文本渲染和中文特色的评估表明,我们的模型在生成准确的中国文化内涵和相关内容方面表现出色,超越了当前行业竞争对手。总体结果如图1所示。

1. 人工评估

1.1. 基准

为了全面评估文本到图像模型的性能,建立了一个严格的评估基准。这个名为Bench - 240的基准由240个提示组成。这些提示是通过结合来自公开可用基准(如[39])的代表性提示和手动策划的提示收集而来的。每个提示都同时提供中文和英文版本。该基准的设计主要考虑两个方面:图像内容,如主题及其关系或相关动作;以及图像质量,如主题结构和美学元素。文本提示的分布根据用户偏好调查进行了精心校准。

1.2. 人工评估结果

基于Bench - 240,通过计算整体ELO分数,并从文本 - 图像对齐、结构校正和美学质量三个关键方面进行专业评估,对各种模型进行了全面比较。我们在图17中展示结果。

  • 特定方面的专家评估:专业评估由专家评审员进行,他们是在各自领域具备专业技能或丰富实践经验的专业人士。例如,在美学质量方面,需要熟练的美学设计师为每张生成的图像分配美学分数。这些评审员使用从1(表示极度不满意)到5(表示非常满意)的李克特量表([16])对生成的图像进行定量评估。每个模型的最终分数是多个评审员对一系列图像和相应提示给出的分数的算术平均值。

  • 基于Elo的总分:通过基于Elo的排名系统([6])来衡量公众的总体偏好,该系统根据公众评审员的投票结果计算得出。志愿者会看到由两种不同模型生成的图像的两两比较,并被要求做出他们的首选。我们收集了超过500,000次两两比较,每个模型平均参与了超过30,000次比较。需要注意的是,还涉及一些变体或竞争模型。广泛的结果为衡量公众偏好提供了可靠的参考。

图片

图17 人工评估结果。

如图1所示,我们的Seedream在中英文评估中,在公众评审员中都取得了卓越的总分,与其他模型相比具有相当大的优势。此外,Seedream模型在所有评估指标上都表现得更为全面。以英文评估为例,我们在图17中展示了更具体的结果。我们的模型在结构方面排名第一,在图像 - 文本对齐和美学表现方面均位居第二。它没有明显的缺点,在图像 - 文本对齐方面优于Midjourney v6.1,在美学吸引力方面优于Ideogram 2.0。虽然竞争模型在特定维度上有优势,但我们的模型在所有评估标准上都占优势,因此在公众评价中最受欢迎。中文评估也有类似的结论。一些对比图像如图23、24、25所示。

2. 自动评估

此外,还采用自动评估技术来评估文本到图像模型的性能,特别是那些公开可用的模型。我们的评估主要考虑两个方面:文本 - 图像对齐和图像质量。这里仅展示英文提示的结果,因为外部自动评估方法主要支持英文输入。

图片

图18 EvalMuse在细粒度维度上的评估结果。

2.1. 文本 - 图像对齐

像FID([11])和CLIP分数([9])这样的传统指标在精确衡量当前文本到图像模型的图像 - 文本对齐能力方面显得不足。因此,利用视觉语言模型(VLM)的自动评估方法引起了广泛关注。在本研究中,我们采用了两种方法:EvalMuse([8])和VQAScore([17])。

  • EvalMuse:EvalMuse收集并注释了大量的图像 - 文本对数据集,便于对生成图像中的图像 - 文本对齐进行详细分析。通过使用FGA - BLIP2模型,该模型在多个基准测试中与人工评估具有高度一致性,我们在EvalMuse测试数据集上对不同模型进行了比较,并展示了技能维度上的细粒度结果。

  • VQAScore:VQAScore利用视觉问答(VQA)模型,通过计算生成的图像是否与提示对应的概率来得出对齐分数。在最先进的视觉语言模型(VLM)的驱动下,VQAScore达到了与人工评估相当的准确率。在本研究中,我们使用推荐的Clip - Flant5 - xxl模型在GEN - AI基准上自动评估图像 - 文本对齐能力。

VQAScore给出的结果与人工评估相似,我们的Seedream仅次于Ideogram,领先于其他模型。EvalMuse评估的结果显示,我们的模型获得了最高的综合分数,在大多数关键指标上排名第一。特别是在一些难度较高的维度,如计数和活动方面。此外,我们的模型在“其他”类别中也领先于其他模型,因为文本渲染能力也包含在内

图片

这一类别。值得注意的是,自动评估的结果与人工评估结果高度吻合,进一步证实了我们的模型在处理图文对齐方面表现出色。

2.2. 图像质量

图像质量具有很强的主观性,因此制定一个普遍适用且准确的评估标准是一项重大挑战。传统上,人们会采用人类偏好指标来评估图像的视觉吸引力。在本研究中,我们通过以下模型评估我们模型的性能:HPSv2([35])和MPS([43])。

  • HPSv2:它源自一个庞大的带注释生成图像对数据集,能提供稳定可靠的图像质量衡量标准。

  • :相反,该指标从多个维度评估图像质量,并且已证明它在捕捉审美感知方面具有特别强的辨别能力。

  • 内部评估模型:此外,我们引入了两个内部偏好评估模型,即Internal - Align和Internal - Aes,分别用于评估图文对齐和整体美学方面。

我们展示了在Bench - 240上这两个指标的质量评估结果,将我们的模型与GPT - 4o、FLUX - 1.1、Midjourney v6.1和RecraftV3进行了比较。我们的模型在HPSv2上取得了最高分。在MPS得分方面,我们的模型紧随Midjourney v6.1之后,但大幅优于其他竞争模型。在内部评估模型中也可以观察到类似的趋势。虽然竞争模型在不同评估指标上的表现波动较大,但我们的模型表现出了显著的稳定性和持续的高性能,凸显了其在一系列偏好维度上的优势能力。

3. 文本渲染

为了全面评估我们模型的文本渲染能力,我们也进行了广泛的评估。首先,我们专门为文本渲染设计了一个基准测试,其中包含180条中文提示和同样数量的英文提示。这些提示涵盖了广泛的类别,从标志设计、海报、电子显示屏、印刷文本到手写文本。值得注意的是,该基准测试还包含在非常规基底上的文本渲染,例如用薯条排列形成的文本或形似云朵的文本,从而提供了一个多样化且全面的基准。

采用一个主观指标(可用率)和两个客观指标(文本准确率和命中率)来评估文本渲染能力。可用率是指当文本渲染基本正确时,考虑到文本与其他内容的融合以及整体美学质量,被认为可接受的图像比例。客观指标定义如下:

  • 文本准确率定义为:

其中表示目标字符的总数,表示渲染文本与目标文本之间的最小编辑距离。

  • 文本命中率定义为:

其中表示输出中正确渲染的字符数量。为了深入评估我们模型的文本渲染能力,我们仔细地将其与具有文本渲染功能的优秀文生图模型进行了比较。在英文文本渲染方面,竞争对手包括RecraftV3([26])、Ideogram 2.0、FLUX1.1 Pro、GPT - 4o和Midjourney v6.1。在中文方面,评估涵盖了Kolors 1.5([30])和MiracleVision 5.0([20])。

图片

图19 文本渲染评估。

评估结果(图19)清晰显示,我们的模型在中文和英文文本渲染方面均实现了最佳可用性,在所有测试模型中拥有最高或接近最高的文本准确率和命中率。特别是在中文文本渲染方面,我们的模型明显优于所有竞争对手。与生成英文字符相比,渲染中文字符更具挑战性,因为其结构更为复杂,字符集也大得多。尽管存在这些困难,我们的模型在中文书写方面仍取得了令人瞩目的78%的文本准确率和82%的命中率。虽然MiracleVision 5.0也实现了65%的中文文本准确率,但其文本布局往往与图像背景明显脱节,严重影响了可用性。此外,我们的模型在生成具有丰富文化内涵的中文文本(如传统对联和古诗词)方面表现出色,凸显了其处理特殊和细微文本形式的能力。示例见图26和图27。

4. 中国特色

生成准确描绘中国特色的图像,不仅需要对中文有基本的理解,还需要对中国丰富的文化遗产有细致的感知。例如,不能用单一符号来代表古代中国,因为每个朝代(唐、宋、元、明、清)都有独特的文化特征。为了全面评估我们的模型在体现中国特色方面的表现,我们构建了一个包含350个提示词的基准,涵盖传统服饰、美食、艺术技法、建筑和其他习俗。

图片

图20 中国特色评估。

专业设计师根据两个标准对生成的图像进行评估。响应率表示是否正确响应了目标元素。中国美学得分指生成的图像的表达是否符合中国的审美倾向。两项指标的评分范围均为1至5分,1分表示无响应,5分表示完全符合。

图20显示,我们的模型表现优于其他模型,特别是在响应率方面具有明显优势。我们进一步从中国特色的细粒度视角分析了每个模型的正确响应比例(响应得分为5分),结果以归一化雷达图(图21)呈现。我们的模型在所有维度上均显著优于竞争对手,特别是在美食、节日、工艺和建筑等方面。如图22所示,以热干面与刀削面、蒙古袍与藏袍为例,其他模型很难表现出这样的差异。Seedream生成的更多高美学中式图像见图28。

图片

图21 各维度中国特色的响应率。

图片

左上:藏袍 右上:马面裙 左下:昆曲服饰 右下:蒙古袍

图22 中国特色对比。我们的模型对中国元素的理解和表达更为准确。

5. 可视化

我们在图22、23、24、25、26、27、28中展示了我们提出的方法与其他现有方法的几个可视化对比结果。可以看出,我们的方法在图文对齐、结构连贯性、美学吸引力和文本渲染准确性等方面表现出优越性。如需更全面地了解我们的模型,请访问我们的豆包和即梦网页。

结论

在这项工作中,我们推出了Seedream 2.0,这是一款先进的双语文本到图像扩散模型,旨在解决当前图像生成系统中的关键局限性,包括模型偏差、文本渲染能力不足以及对具有文化细微差别的提示理解不足等问题。通过集成自主研发的双语大语言模型(LLM)作为文本编码器,我们的模型学习了有意义的中英文母语知识,能够高保真地生成与文化相关的内容。引入用于字符级文本渲染的字形对齐ByT5和用于分辨率泛化的缩放旋转位置编码(Scaled ROPE)进一步增强了其通用性和鲁棒性。通过多阶段监督微调(SFT)和基于人类反馈的强化学习(RLHF)迭代进行系统优化,Seedream 2.0在遵循提示、美学质量、结构正确性和符合人类偏好方面表现卓越,其出色的ELO分数证明了这一点。特别是,它在中文文本渲染和特定文化场景生成方面取得了显著成效,在豆包(Doubao)和即梦(Dreamina)等应用上广受好评。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值