自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架

文章链接:https://arxiv.org/pdf/2407.07614
github链接:https://github.com/fusiming3/MARS

亮点直击

  • MARS,一个从自回归预训练LLM中改编而来的创新框架,专用于文本到图像(T2I)生成任务。

  • 为了确保保留NLP能力,同时为模型配备先进的视觉生成和理解能力,设计了一个名为SemVIE的模块,该模块在预训练LLM的注意力块中添加了并行的视觉专家。

  • MARS放大了自回归方法在T2I生成和联合图像-文本合成中的灵活性,并具有扩展到任何任务的潜力。

  • 提出了一种多阶段的细化训练策略,大大增强了MARS的指令跟随能力及其生成高质量细节丰富图像的能力。

  • MARS在提示理解和跟随方面表现出色,例如能够处理长而复杂的自然语言输入。此外,它具有遵循英文和中文提示的双语能力。

  • 该框架的性能通过一系列评估指标得到验证,即MS-COCO基准测试、T2I-CompBench和人类评估。

自回归模型在语言生成领域取得了显著进展,但在图像合成领域的表现却不如扩散模型。本文介绍了MARS,一种用于文本到图像生成的新框架,该框架结合了专门设计的语义视觉语言集成专家(Semantic Vision-Language Integration Expert, SemVIE)。它通过独立处理语言和视觉信息来整合预训练的LLM——冻结文本组件,同时微调视觉组件。这种方法保留了LLM的自然语言处理能力,同时赋予其卓越的视觉理解能力。基于强大的预训练模型Qwen-7B,MARS在生成能力上脱颖而出,能够处理对应英文和中文语言提示的生成任务,并具备联合图像和文本生成的能力。

这一框架的灵活性使其能够迁移到任何任务的适应性。此外,MARS采用了多阶段训练策略,首先通过互补的双向任务建立强大的图文对齐,然后专注于精细化文本到图像的生成过程,显著提高了文本和图像的同步性和图像细节的细腻程度。值得注意的是,MARS仅需SD1.5所需GPU天数的9%,却在各种基准测试中取得了显著成果,展示了训练效率和在各种应用中快速部署的潜力。

方法

总体框架

MARS,一个将大语言模型(LLM)与视觉生成能力结合在统一框架内的创新系统。MARS体现了一种平衡的多模态架构,包含了独特但协调一致的视觉和语言专家模型,如下图3所示。

跨模态的一致性通过两种模块中的并行结构设计得以维持。语言模块利用预训练的LLM(如Qwen-7B)的能力,而视觉模块与语言模型同时初始化。在训练阶段,语言组件保持静止,优化仅限于视觉领域内的选定权重,这些权重专门为图像合成任务校准。该架构的有效性进一步通过丰富的视觉词汇和SemVIE的引入得到增强,SemVIE融合了LLM复杂的语言解释能力与视觉感知能力。这种结合不仅利用了LLM固有的强大自然语言处理能力,还通过大量成对的图像-文本示例,增强了模态间的一致性,促进了连贯视觉内容的生成。

语义视觉语言集成专家

分词

在本研究中,预训练的LLM Qwen-7B 作为基础语言框架,利用其分词器将文本数据拆解为一系列代表性tokens,记作 。同时,在视觉模态中,使用受VQ-GAN架构启发的编码器将图像 转换为特征图 ,其中 ,P预定义为量化参数16,D表示特征维度。特征图 随后使用视觉码本 VQ-GAN 进行量化,将其映射为一系列离散的代码索引 。这个过程有效地将256×256像素的图像重构为一系列256个token,其中每个token代表16×16像素的图像段。值得注意的是,视觉码本由8192个唯一编码组成。这些视觉token在框架中被token为 。

在MARS的词汇表中,这些视觉组件与传统的文本token交织在一起,形成一个综合的多模态词汇表。语言LLM的原始词汇表包含151,936个条目,结合视觉码本和6个专门设计用于表示图像序列开始和结束的特殊token后,形成了一个160,136大小的多模态词汇表。在MARS的架构中,由VQ-GAN范式合成的视觉token与文本token享有同等地位。视觉词汇的初始嵌入是从预训练文本token的聚合均值嵌入中得出的,建立了跨模态集成的基础。

语义视觉语言集成专家

MARS架构包含L层SemVIE,这是一个专门设计的多模态专家混合体(mm-MoE),能够熟练处理视觉和语义token。SemVIE的核心是Attention-MoE和Feed-Forward Network(FFN)-MoE模块。在每个Transformer模块的层归一化步骤之后,专门的路由模块被战略性地放置。这一路由机制旨在将每个输入token分配给最适合其处理的专家模型。共享架构框架的一个显著方面是因果多头注意力和层归一化模块在语言和视觉模态中的普遍应用,体现了一种统一的方法论来并行处理多模态数据。Attention-MoE的过程如下:

其中,C表示连接操作,、 和 是从预训练的LLM中冻结并加载的参数。、 和 是可训练的,并以预训练的语义LLM进行初始化。然后,MoE-FFN模块进一步处理多模态token:

其中,表示连接操作,和共享相同的架构,是可训练的。SemVIE模块作为MARS的基石,受益于Attention-MoE和FFN-MoE模块的协同集成,实现了多模态数据流的有效融合。此集成利用了预训练LLM所提供的深刻语言见解,从而借助高级语言理解能力来丰富视觉理解。为了使模型能够同时预测视觉token和文本token,除了使用原始的LLM模型头(称为文本头)之外,还在模型中添加了一个视觉头。值得注意的是,文本token和视觉token分别通过文本头和视觉头处理,以获得logits,分别记为和。然后,logits在最后一个维度上连接,并通过softmax层以获得每个token的词汇概率分布。

多阶段细化

阶段I:文本到图像对齐的预训练

首先通过两个不同的任务来优化MARS:文本到图像生成和图像描述。这个细化过程利用了一种自回归的方法来进行NTP。该过程涉及一个大约2亿对文本-图像对的数据集,每个图像的分辨率为256×256像素。

阶段II:高质量数据对齐

为了提高图像合成的保真度,这个阶段继续使用NTP从文本描述生成图像。与阶段I不同,阶段II使用的数据集包括5000万对文本和相应的图像,每对数据都经过美学评估模型的精心挑选。与这些图像配对的描述性标题来自CogVLM,根据明确的指令生成。为了减轻由于图像裁剪导致的视觉内容和文本描述之间的潜在差异,实施了一种标准化程序,将每张图像的短边调整为256像素。在保持原始纵横比的同时,这一措施确保了完整图像内容的保留。然而,这导致图像序列长度的变化。为了解决这个问题,在标题中包含了分辨率信息,以指定生成图像的期望序列长度。

阶段III:高分辨率细化

受SD-XL和DeepFloyd方法的启发,利用级联超分辨率策略进一步增强MARS。低分辨率生成的图像及其对应的标题作为超分辨率模型的输入。超分辨率模型在基础模型训练完成后进行训练。在这个阶段,采用下一个Ktoken预测(NTKP)方法来预测更高分辨率的图像。输出图像的长边为1024像素,同时保持原始纵横比。为了控制生成图像的分辨率,采用与阶段II相同的策略。使用了一千万组(低分辨率图像、标题、高分辨率图像)样本来训练级联超分辨率模型。

数据集构建

研究中包含的开源英文数据集有LAION-400M、CC3M、CC12M、LAION-COCO、COYO和Datacomp。研究者们启动了一个过滤过程,以排除分辨率低于256像素或长宽比大于2的图像。随后,根据它们的CLIP评分和美学评估来选择图像。这个方法产生了一个包含1.5亿对图像-文本的庞大语料库。此外,还利用了5000万内部数据,这些数据主要包括带有中文标题的图像-文本对,总计约2亿对。

粗粒度的图像-文本数据表现出显著的噪声,明显体现在图像和文本之间的不对齐、描述内容不足、不相关的标题以及图像质量低下。在后续的文本到图像(T2I)指令跟随训练阶段中,为了解决这些问题,通过标题重写策略增强了文本的相关性和信息密度。具体来说,部署了一个预训练的多模态标题模型CogVLM,为精选的图像重新生成细粒度的标题。这些新生成的标题详细描述了图像的各个方面,包括物体的位置、属性、背景和风格元素,平均长度约为110个单词。下图4展示了一个示例。这种方法为5000万张图像生成了细粒度的标题。

实验

实验细节

实现细节

采用AdamW作为优化器,beta参数设置为0.95,权重衰减设置为0.1。峰值学习率设定为,并采用了0.01的预热策略。对于分辨率为256×256像素的图像,每个GPU的批量大小设置为64,而对于512×512像素的图像,批量大小设置为24,导致总批量大小分别为4096和1536。训练使用了DeepSpeed的ZeRO-3优化。模型的第一阶段、第二阶段和第三阶段的训练轮数分别配置为1、2和1轮。

评估基准

选择了三个基准进行比较,包括:

  • MSCOCO数据集。参考之前的工作,使用从MSCOCO 2014评估数据集中抽取的标题生成了30,000张图像,并评估生成图像的样本质量和图像-文本对齐情况。具体来说,没有对生成输出的图像进行选择性策划。评估使用了Frechet Inception Distance (FID)和CLIP Score。

  • T2I-CompBench。使用各种组合提示来评估文本属性,包括颜色、形状和纹理等方面,以及属性绑定。

  • 用户研究。随机选择了100个提示进行评估,随后邀请了30名参与者进行用户研究。

性能比较与分析

MSCOCO基准

使用Frechet Inception Distance (FID)来评估合成图像的质量。如下表1所示,提出的MARS仅用7B可训练参数在FID上得分6.92,取得了显著成就。与自回归模型Parti相比,使用了更少的参数(14B vs 20B)和更小的数据规模(0.2B vs 4.8B),取得了具有竞争力的性能(6.92 vs 7.22)。相对于扩散模型SDv1.5,在训练预算较少(587 vs 6250 A100 GPU天)的情况下,取得了更优的性能(6.92 vs 9.22)。这些结果突显了本文混合自回归模型的效率。

此外,利用CLIP-Score来评估文本条件与相应生成图像的对齐情况。当选择生成图像时,MARS在CLIP评分最高时取得了33.10的CLIP评分和3.51的FID,表明其在生成与文本提示语义内容高度一致的视觉上具有显著效果。

T2I CompBench性能

在T2I-CompBench的评估中,选择了一些当代的文本生成图像模型进行严格评估。这些模型包括Composable Diffusion、Structured Diffusion、Attn-Exct v2、GORS、DALLE 2、PixArt-α、SD1.5和SD-XL。下表2中呈现的实证数据展示了MARS在T2I-CompBench基准测试中的卓越表现,突出其在属性绑定、物体关系描述和复杂组合的合成方面的熟练度。值得注意的是,MARS在颜色和纹理表示的保真度方面显示出显著的改进,分别比DALLE 2提高了11.63%和7.49%。与DALLE 2相比,MARS在空间和非空间度量上也有显著提升,分别提高了6.41%和1.67%。此外,与最近集成了T5-XL文本编码器的PixArt-α模型相比,MARS在多个维度上表现更佳。具体而言,MARS在颜色(69.13%)和纹理(71.23%)准确性方面取得了最高分,超过了PixArt-α的68.86%和70.44%。这些结果表明,在自回归框架中结合LLM表示和视觉token可以显著提高生成图像的质量以及视觉内容与相应文本叙述之间的对齐度。

用户研究

研究者们进行了一项用户研究,评估现有方法和MARS的各种组合。每个组合基于样本质量和图像-文本对齐两个标准进行评估。60名用户被要求评估具有相同文本的图像的美学吸引力和语义准确性,确定哪个图像在这些标准上表现更佳。随后,计算每个模型的百分比分数,如下图5所示。结果表明,MARS在质量和对齐方面相比PixelArt-α分别获得了66.7%和63.3%的更高投票偏好。此外,与LAVIT和UIO-2相比,MARS显示出具有竞争力的表现。

视觉分析

下图6展示了MARS框架的高级图像合成能力,能够生成具有显著细节和符合文本描述的视觉效果。这种能力可能归因于从大语言模型(LLMs)中提取的高级文本表示,当与结构化的多层次训练策略相结合时,显著提高了模型的精度和文本与图像之间的对齐度。MARS的多阶段训练策略逐步优化了文本提示与视觉输出之间的相关性,使得生成的图像不仅反映了文本的意图,还展示了类似于真实照片的深度细节。借助LLMs的深层语义理解,MARS能够熟练地将复杂的文本描述转换为连贯且富有上下文的视觉叙述,从而展示了一个结合技术效率与艺术表现的生成模型。

多语言生成

语言模型核心是Qwen架构,其本质上设计支持多语言并包含了一个综合的中英双语数据集。在训练阶段,刻意包括了少量但显著比例的中文内部数据。正如下图7所示,尽管中文语料库相对稀缺,本文的模型在中文文本到图像合成方面表现出色。这表明MARS已有效掌握了跨语言边界解释概念的能力,确保图像和文本在单一表示空间内融合,这是由新颖的混合机制促成的。

消融研究

对上述关键部分进行了消融研究,包括模型设计和多阶段训练。

SemVIE的效果

下表3中呈现的结果是在Stage-I阶段获得的。没有视觉专家的配置(w/o Visual Expert),即在视觉和语言专家之间共享权重,导致结果显著恶化,FID下降了1.89。这一显著的下降突显了利用专门视觉专家的好处。对齐视觉和语言模态的挑战强调了需要专门的架构来处理这些数据类型之间的内在差异。

多阶段训练的效果

下表4进一步探讨了不同训练阶段的效果。

结果表明,每个阶段的训练都对模型有积极影响。在MS-COCO基准测试中,Stage II相比Stage I提高了1.22的FID,而Stage III相比Stage II进一步提高了0.10。不同阶段的可视化结果如图8所示。观察到,Stage I和Stage II阶段生成的图像缺乏细节,而Stage III阶段的图像质量最佳。

进一步分析

图像和文本联合生成能力。MARS不仅限于文本到图像的生成,还支持同时生成文本和图像,例如从文本和图像输入生成多个文本和图像输出,重点关注两种模态之间的相关性、一致性和连贯性。由于在MARS的预训练阶段保留了LLM的完整性,系统在涉及同时创建文本和图像的任务时处于有利位置。例如,在食谱生成领域,利用文本-图像预训练模型,用一个包含1万个食谱的数据集对其进行微调。这使得模型能够生成包括逐步说明和相应插图的全面烹饪教程。如下图9所示,在接收到需要图像的食谱标题和相关说明时,模型同时生成详细的文本内容(如成分清单和操作步骤)以及每个阶段的视觉表现。值得注意的是,MARS将文本和图像无缝融合成连贯输出的能力不仅限于食谱生成,还可以推广到其他需要联合文本和图像生成任务的领域。

结论

本研究介绍了MARS,这是一个创新的自回归框架,既保留了预训练大语言模型(LLM)的能力,又融入了顶级的文本到图像(T2I)生成技能。MARS经过训练,在T2I任务中表现出色。引入了Semantic Vision-Language Integration Expert(SemVIE)模块,它是MARS的关键,优化了文本和视觉token空间的融合,并为多模态学习带来了新的见解。MARS在多个基准评估中展示了卓越的性能,如MSCOCO基准测试、T2I-CompBench和人类评估。预训练的Qwen模型使MARS能够生成中英双语图像,无缝地融合中文和英文。此外,MARS能够熟练处理联合图像-文本生成任务,显示了其在任意-任意范式应用中的潜力。

参考文献

[1] Mixture of Auto-Regressive Models for Fine-grained Text-to-image Synthesis

  • 20
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值