视觉全能！自回归要反超扩散？Lumina-mGPT:任意分辨率丝滑逼真图像生成（上海AI Lab）

最新推荐文章于 2025-05-30 08:05:08 发布

AI生成未来

最新推荐文章于 2025-05-30 08:05:08 发布

阅读量1.1k

点赞数 23

分类专栏： AIGC 文章标签：人工智能回归自回归扩散模型

本文链接：https://blog.csdn.net/AIGCer/article/details/141001609

版权

文章链接：https://arxiv.org/pdf/2408.02657
git链接：https://github.com/Alpha-VLLM/Lumina-mGPT

亮点直击

通过多模态生成预训练的自回归Transformer，而不是从头训练，可以作为逼真的文本到图像生成和视觉与语言任务统一的有效初始化。

基于mGPTs，引入了两种新的微调策略，FP-SFT和Omni-SFT，以在从弱到强的范式中充分释放它们的潜力，仅使用1000万高质量的文本-图像数据。

结果模型Lumina-mGPT不仅在任何分辨率下展示了令人印象深刻的逼真文本到图像生成，弥合了自回归和扩散基础方法之间的差距，还通过语言接口无缝支持各种下游任务。

本文介绍了Lumina-mGPT，一个多模态自回归模型家族，能够执行各种视觉和语言任务，特别是在从文本描述生成灵活的逼真图像方面表现优异。与现有的自回归图像生成方法不同，Lumina-mGPT采用了预训练的decoder-only Transformer作为建模多模态token序列的统一框架。注意见解是，通过使用大规模交织的文本-图像序列进行下一token预测目标的多模态生成预训练（mGPT），简单的decoder-only Transformer能够学习广泛且通用的多模态能力，从而实现逼真的文本到图像生成。基于这些预训练模型，提出了高质量图像-文本对的灵活渐进监督微调（FP-SFT），以充分释放它们在任何分辨率下进行高美学图像合成的潜力，同时保持其通用多模态能力。

此外，引入了全能监督微调（Omni-SFT），将Lumina-mGPT转化为一个基础模型，能够无缝实现全能任务统一。结果显示，该模型具备多种多模态能力，包括视觉生成任务（如灵活的文本到图像生成和可控生成）、视觉识别任务（如分割和深度估计）以及视觉语言任务（如多轮视觉问答）。此外，本文还分析了扩散基础方法和自回归方法之间的差异和相似之处。

方法

Lumina-mGPT 是一个仅包含解码器的Transformer ，采用多模态生成预训练（mGPT）进行初始化，并在来自各种任务的高质量多模态token 上进行微调。基于强大的 mGPT 表示和本文提出的带有明确图像表示的监督微调策略，Lumina-mGPT 在逼真图像生成和全能任务统一方面表现出色，具有高灵活性，能够处理不同的图像分辨率和长宽比。

重新审视带Chameleon的mGPT

mGPT 代表了一类利用仅包含解码器的Transformer 架构的模型，这些模型在广泛的多模态token 序列上进行了预训练。这些模型展现了出色的原生多模态理解、生成和推理能力，提供了在各种模态和任务中进行通用建模的潜力。本文使用最近的开源模型 Chameleon作为例子，来说明 mGPT 的设计选择和实现细节。

多模态分词（Tokenization）

为了将文本和图像统一成多模态token序列，首先需要将文本和图像分别token化为离散空间。特别是对于图像，选择合适的分词器至关重要，因为它决定了生成质量的上限。具体来说，Chameleon 为文本训练了一种新的字节对编码token。对于图像，采用了基于量化的token化方法，参考了之前的工作，将连续的图像补丁转换为来自固定词汇表的离散token ，同时减少空间维度。量化后的图像token被展平成一维序列，并以各种方式与文本token连接，以形成用于统一建模的多模态token序列。

仅解码器Transformer

与使用预训练编码器的 Unified-IO 和 Parti 的编码器-解码器架构不同，mGPT 从头开始训练一个仅包含解码器的自回归Transformer，在将文本和图像输入转换为离散token的统一序列后，这种方法提供了更简单、更统一的多模态生成建模方法。mGPT 采用了标准的密集Transformer 架构，以便于扩展和泛化，进行了如 RoPE（和 SwiGLU激活函数等小的调整，参考了 LLaMA 系列）。

然而，当模型规模和多模态token序列的上下文长度增加时，这种标准的Transformer 架构会表现出训练不稳定性，这在 Chameleon和 Lumina-Next中都有观察到。研究发现，这种不稳定性是由于Transformer块中的网络激活无法控制地增长所造成的。因此，为了保持中间激活的幅度并进一步稳定训练过程，添加了 Pre-Norm、Post-Norm 和 QK-Norm 到每个Transformer 块中。

训练目标

在训练过程中，mGPT 通过标准的下一个token 预测目标建模多模态序列的条件概率。此外，Chameleon 应用了 z-loss来稳定 7B 和 30B 模型的训练。最初，低估了 z-loss 的重要性，因为在与（多模态）LLM 训练相关的大多数工作中，它是缺失的。然而，发现没有这项时，logits 的幅度会激增，导致损失发散。另一方面，使用 z-loss 时，观察到对于 7B 和 30B 模型，推理时图像生成的最佳温度远低于 1B 模型，因为在更大的模型中 logits 的幅度显著降低。

Chameleon 的局限性

尽管像 Chameleon 这样的 mGPT 模型在单个仅解码器的Transformer 中展示了图像和文本的联合理解潜力，但其图像生成能力在质量和分辨率灵活性方面仍不及最先进的扩散基础框架。此外，值得注意的是，Chameleon 的开源版本中甚至缺乏图像生成能力。此外，Chameleon 的能力仅限于视觉-语言和仅文本任务，未涵盖更广泛的视觉中心任务。这些任务包括经典的视觉识别任务（如分割和深度预测）以及创意视觉生成任务（如可控生成和图像编辑）。Lumina-mGPT 基于 Chameleon 构建，旨在释放其在灵活逼真图像生成方面的全部潜力，成为一个多功能的视觉通用模型。

Lumina-mGPT

基于预训练的多模态生成预训练（mGPT）表示，Lumina-mGPT 实现了灵活的逼真图像生成以及视觉和语言任务的统一。为了充分释放 mGPT 的潜力，提出了明确图像表示（Uni-Rep）、灵活渐进监督微调（FP-SFT）和全能监督微调（Omni-SFT）。Uni-Rep 消除了原始 2D 形状的扁平化 1D 图像token 中的模糊性，为灵活分辨率和长宽比下的图像理解和生成奠定了基础。FP-SFT 以从简单到困难的方式逐步微调 mGPT 以生成

最低0.47元/天解锁文章