自回归扳回一城!阿里等提出MARS:超越PixArt-α、SD-XL等的文本到图像生成框架

文章链接:https://arxiv.org/pdf/2407.07614
github链接:https://github.com/fusiming3/MARS

亮点直击

  • MARS,一个从自回归预训练LLM中改编而来的创新框架,专用于文本到图像(T2I)生成任务。

  • 为了确保保留NLP能力,同时为模型配备先进的视觉生成和理解能力,设计了一个名为SemVIE的模块,该模块在预训练LLM的注意力块中添加了并行的视觉专家。

  • MARS放大了自回归方法在T2I生成和联合图像-文本合成中的灵活性,并具有扩展到任何任务的潜力。

  • 提出了一种多阶段的细化训练策略,大大增强了MARS的指令跟随能力及其生成高质量细节丰富图像的能力。

  • MARS在提示理解和跟随方面表现出色,例如能够处理长而复杂的自然语言输入。此外,它具有遵循英文和中文提示的双语能力。

  • 该框架的性能通过一系列评估指标得到验证,即MS-COCO基准测试、T2I-CompBench和人类评估。

自回归模型在语言生成领域取得了显著进展,但在图像合成领域的表现却不如扩散模型。本文介绍了MARS,一种用于文本到图像生成的新框架,该框架结合了专门设计的语义视觉语言集成专家(Semantic Vision-Language Integration Expert, SemVIE)。它通过独立处理语言和视觉信息来整合预训练的LLM——冻结文本组件,同时微调视觉组件。这种方法保留了LLM的自然语言处理能力,同时赋予其卓越的视觉理解能力。基于强大的预训练模型Qwen-7B,MARS在生成能力上脱颖而出,能够处理对应英文和中文语言提示的生成任务,并具备联合图像和文本生成的能力。

这一框架的灵活性使其能够迁移到任何任务的适应性。此外,MARS采用了多阶段训练策略,首先通过互补的双向任务建立强大的图文对齐,然后专注于精细化文本到图像的生成过程,显著提高了文本和图像的同步性和图像细节的细腻程度。值得注意的是,MARS仅需SD1.5所需GPU天数的9%,却在各种基准测试中取得了显著成果,展示了训练效率和在各种应用中快速部署的潜力。

方法

总体框架

MARS,一个将大语言模型(LLM)与视觉生成能力结合在统一框架内的创新系统。MARS体现了一种平衡的多模态架构,包含了独特但协调一致的视觉和语言专家模型,如下图3所示。

跨模态的一致性通过两种模块中的并行结构设计得以维持。语言模块利用预训练的LLM(如Qwen-7B)的能力,而视觉模块与语言模型同时初始化。在训练阶段,语言组件保持静止,优化仅限于视觉领域内的选定权重,这些权重专门为图像合成任务校准。该架构的有效性进一步通过丰富的视觉词汇和SemVIE的引入得到增强,SemVIE融合了LLM复杂的语言解释能力与视觉感知能力。这种结合不仅利用了LLM固有的强大自然语言处理能力,还通过大量成对的图像-文本示例

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值