颠覆式突破 | 多模态大模型&扩散模型走向“大一统”，一种Transformer搞定理解与生成！

最新推荐文章于 2025-03-06 20:00:00 发布

程序猿李巡天

最新推荐文章于 2025-03-06 20:00:00 发布

阅读量1.6k

点赞数 18

文章标签： transformer 深度学习人工智能大数据语言模型自然语言处理 python

本文链接：https://blog.csdn.net/m0_59235945/article/details/142658521

版权

“当前阶段，爆火的大语言模型和用于文生图和文生图的扩散模型是两种不同的Transformer架构。大语言模型更倾向于多模态理解任务，即你问我答的方式；而扩散模型其实输入多模态生成的范畴，它更倾向于完成你说我生成的方式。我相信有些朋友肯定会有这样的疑惑-为什么不能用同一个架构来同时完成大语言模型和扩散模型呢？小编恰好能回答你这个疑问，本文提出了一个统一的Transformer框架，即Show-o，它统一了多模态理解和生成任务。与完全自回归模型不同，Show-o统一了自回归和（离散）扩散建模，从而自适应地处理各种和混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。

代码链接-https://github.com/showlab/Show-o

论文链接-https://arxiv.org/pdf/2408.12528

01-视觉语言大一统模型发展历程

01.01-NExT-GPT算法简介

近期多模态大型语言模型（MM-LLM）取得了令人振奋的进展，但它们大多数都受限于仅能理解多模态输入的局限性，无法以多种模态生成内容。由于人类总是通过各种模态感知世界并与人们交流，为了更好的评估模型达到的人工智能水平，开发能够接受和传递任何模态内容的任意到任意多模态语言模型变得至关重要。

为了填补这一空白，作者提出了一个端到端的通用任意到任意多模态语言模型系统，NExT-GPT。作者将一个LLM与多模态适配器和不同的扩散解码器连接起来，使NExT-GPT能够以任意文本、图像、视频和音频的组合感知输入并生成输出。通过利用现有训练充分的高性能编码器和解码器，NExT-GPT仅仅需要调整了一小部分参数（1%）的特定投影层，这不仅有利于低成本训练，而且便于扩展到更多潜在的模态。

除此之外，作者引入了一种模态切换指令调整（MosIT）并手动策划了一个高质量的MosIT数据集，基于该数据集，NExT-GPT具备了复杂的跨模态语义理解和内容生成能力。

01.02-SEED-X算法简介

多模态基础模型的快速发展，尤其是在视觉语言理解和生成方面取得了重大进展。然而，SEED_LLAMA能力与现实世界的适用性之间仍存在较大的差距，主要是由于该模型有效响应各种用户指令和与各种视觉数据交互的能力有限。

在SEED-X这项工作中，作者专注于通过集成两个增强的特征来弥合这个差距：1）理解任意大小和比例的图像；2）实现多粒度图像生成作者提出了一个统一而通用的基础模型，即SEED-X，它能够为理解和生成任务建模多粒度的视觉语义。

除了在公共基准测试上获得的竞争力结果之外，SEED-X还展示了其在指令调优后处理跨各个领域的真实应用程序的有效性。作者希望我们的工作将激励未来的研究，研究多功能多模式基础模型在现实世界中的应用。

01.03-Chameleon算法简介

Chameleon是一个基于早期融合标记的混合模态大模型家族，它能够理解和生成任何任意序列的图像和文本。作者从一开始就提出了一种稳定的训练方法、对齐配方和为早期融合、基于令牌的混合模式设置量身定制的架构参数化。

作者对该模型进行了全面的性能评估，包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。Chameleon展示了广泛而通用的能力，包括在图像字幕任务中获得了最先进性能，在纯文本任务中优于Llama-2，同时获得与Mixtral 8x7B和Gemini Pro等大模型相当的性能，并在单个型号中执行非琐碎的图像生成。

根据人类对一种新的长格式混合模态生成评估的判断，它还匹配或超过了包括Gemini Pro和GPT-4V在内的更大的多模态大模型的性能，其中提示或输出包含图像和文本的混合序列。Chameleon的出现标志着在多模态文档的统一建模与生成方面迈出了重要一步。

需要说明的是，它与多模态大语言模型并不相同，多模态大语言模型只是支持多种不同模态的内容输入，支持独立的输出不同模态的内容，并不支持一次性输出图文混排的内容！

02-Show-o背景简介

如上图所示，在过去几年中，多模态智能的两个关键支柱任务理解和生成取得了重大进展。对于多模态理解，像LLaVA这样的多模态大型语言模型（MLLM）在视觉问答（VQA）等视觉语言任务中表现出了卓越的能力。对于视觉生成的另一个支柱，去噪扩散概率模型（DDPM）彻底改变了传统的生成范式，在文本到图像/视频生成方面取得了前所未有的成绩。

鉴于各个领域的这些成就，探索将它们联系起来的潜力是很自然的。最近的一些工作试图从这两个不同的领域来组装专家模型，从而形成一个可以处理多模态理解和生成任务的统一框架。然而，现有的尝试主要是独立处理每个领域，并且通常涉及负责分别理解和生成的单个模型（如图c所示）。例如，NExT-GPT采用基础语言模型进行多模态理解，但需要额外的预训练扩散模型进行图像生成。尽管如此，像LLaVA这样的主流理解模型是一种Transformer架构，而像稳定扩散3（SD3）这样的领先模型却是另一个Transformer架构。这引发了一个研究问题：一种Transformer能否同时处理多模态理解和生成任务？

近期，Chameleon证明了这是可能的。具体来说，Chameleon能够在早期融合不同的模式，通过相同的自回归建模方式生成文本和图像标记。虽然自回归建模文本标记是合理的，但自回归建模图像块（或像素）是否更好尚不清楚。自回归预测图像的一个明显和重要的瓶颈是由于其因果关系而需要大量的采样步骤，特别是在处理更高分辨率的图像/视频时。此外，（连续）扩散模型在视觉生成方面表现出比自回归模型更优越的能力，并受到了充分关注。

03-Show-o算法简介

本文提出了一个统一的Transformer框架，即Show-o，它统一了多模态理解和生成任务。与完全自回归模型不同，Show-o统一了自回归和（离散）扩散建模，从而自适应地处理各种和混合模态的输入和输出。

统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中，它展示了与现有单个模型相当或更优的性能，具有为理解或生成而定制的等效或更多参数。这显著突显了其作为下一代基础模型的潜力。

04-Show-o算法应用场景

04.01-文生图/视觉生成

上图展示了该算法在视觉生成/文生图任务上面的应用效果。尽管该算法生成的图像并不是很高清，毕竟它在探索着一个新的研究方向，需要一段时间的持续迭代与优化！

04.02-图像修复

上图展示了该算法在文本导向的图像修复或扩展任务上面的应用效果。通过观察与分析，我们可以发现：该算法可以利用文本提示很好的对图像进行修复和扩展。

04.03-混合多模态生成

上图展示了该算法在混合模态生成任务上面的应用效果。用户只需要输入第一帧的输入图片和接下来几帧的文本描述，该算法就可以生成相应的视频帧。

04.04-多模态问答/理解

上图展示了该算法在多模态问答/理解任务下面的应用场景。输入相同的输入图片和问题，尽管Chameleon和SEED-X都能对图片进行描述，但是Show-o算法的输出结果更胜一筹！

05-Show-o算法流程

上图展示了Show-o算法的整体流程。详细的流程如下所述：

首先，无论输入数据是如何形式，它都会被标记，然后被转化为格式化的输入序列。如图中的文本Tokenizer和图像Tokenizer。
然后，不同的任务会将不用的tokens信息送入一个包含因果关系和全注意力机制的自回归模型中；
最后，通过对输入的结果执行文本De-Tokenizer或图像De-Tokenizer操作，获得最终的输出结果。

总而言之，Show-o能够处理图像字幕、视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成多种任务。

06-Show-o算法实现细节

06.01-统一的文本提示格式

上图展示了作者提出的统一的文本提示格式。为了对多模态理解和生成任务进行统一学习，作者设计了一种统一的提示策略来格式化各种各样的输入数据。给定一个图像-文本对（x，y），首先将其标记为M个图像标记u和N个文本标记v分别由图像和文本标记器标记。按照上图所示的格式，根据任务类型将它们形成一个输入序列。

具体来说，[MMU]和[T2I]是预定义的任务标记，用于指示输入序列的学习任务。[SOT]和[EOT]分别用作表示文本标记的开始和结束的特殊标记。同样，[SOI]和[EOI]是预定义的特殊标记，标记图像标记的开始和结束。

06.02-词语切分细节

Show-o是建立在预训练的LLM之上的，在离散空间上进行统一学习是一种很自然的方式。通过这种方式，作者维护了一个包含离散文本和图像标记的统一词汇表，以便统一模型可以具有相同的学习目标，即预测离散标记。

文本词语切分。Show-o基于预训练的LLM，作者使用相同的标记器进行文本数据标记，无需任何修改。
图像标记化。根据MAGVIT-v2，作者使用大约35M的图像数据训练了一个无查找量化器。量化器保持大小为8192的码本，并将256×256分辨率的图像编码为16×16离散令牌（如图a所示）。作者使用MAGVIT-v2的原因在于它容易微调，可以作为具有时间压缩能力的视频标记器。

另一种方法是分别使用不同的标记器进行理解和生成。受现有研究的启发，作者还从预训练的MAGVIT-v2和CLIP-ViT编码器中提取连续图像表示，作为探索提高多模态理解能力的输入（如图b和图c所示）。

06.03-全注意力机制

上图展示了全注意力机制（深色方块表示“允许参加”，白色方块表示“阻止参加”）的实现细节。它是一种多功能的注意力机制，具有因果性和全注意力，可以根据输入序列的格式自适应地混合和变化。如a、b和c所示，在包含文本和图像标记的序列中，全注意机制使用因果注意明显处理文本标记，使用全注意明显处理图像标记。此外，关于输入序列，（a）文本标记可以关注所有前面的图像标记，（b）图像标记可以访问所有前面的文本标记，以及（c）在只提供文本标记的情况下，注意力会降级为因果注意力。

06.04-采样步长的影响

作者在上图左侧以256*256的分辨率显示了不同采样步长的生成结果。只需两个步骤，Show-o就可以生成与给定提示大致相关的图像。将采样步骤增加到8，可以合成与提示紧密相关的图像。当采样步长设置为16时，生成的图像变得更加详细和逼真。相比之下，自回归模型团队在下采样率为16时需要256个采样步骤来生成相同分辨率的图像，这是该方法的16倍。

上图右侧显示了不同无分类器制导尺度t下生成图像的视觉变化。通过观察与分析，我们可以发现：在没有无分类器引导的情况下，生成的图像缺乏细节和对象。随着无分类器引导量表t逐渐增加到1.25和1.75，颜色和内容变得更加多样化，与给定的文本提示更加一致。

07-Show-o算法性能评估

07.01-主观效果性能评估

上图展示了该算法与多个SOTA的文生图算法在相同的文本提示下的生成效果。通过观察与分析，我们可以发现：与其它几个算法相比，该算法生成的结果更清晰、更有创意一些，当前该算法的生成效果与Flux相比，还是差了很多！

上图展示了该算法与其它SOTA方法（Chameleon、SEED-X）在相同的图像和文本提问下的回答结果。通过观察与额你想，我们可以发现：该模型的回答效果更胜一筹！

07.02-客观指标性能评估

上表展示了该算法与多个SOTA算法在多模态理解基准上面的评估效果。Show-o目前基于Phi1.5构建，因此作者将LLaVA-v1.5-Phi-1.5作为其基线。Und.与Gen.分别表示“理解”和“生成”。†表示采用CLIP-ViT连续表示的改进的Show-o。图中绿色突出显示Show-o和LLaVA基线的模型尺寸，并使用蓝色突出显示比我们更大的模型尺寸。通过观察与分析，我们可以发现：与基线算法相比，该算法在多项评估指标上面获得了较好的结果。与其它理解大模型相比，该模型的参数量更少，多项性能指标有待进一步提升。

上图展示了该算法与多个算法在GenEval基准上的文生图能力评估效果。Gen.分别表示“理解”和“生成”。通过观察与分析，我们可以发现：与其它模型相比，该模型的参数量更少，各项指标和整体指标都获得了不错的效果。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述