颠覆式突破 | 多模态大模型&扩散模型走向“大一统”，一种Transformer搞定理解与生成！

程序员丸子

于 2024-08-26 09:46:30 发布

阅读量620

点赞数 15

文章标签： transformer 深度学习人工智能自然语言处理大模型 AI大模型语言模型

本文链接：https://blog.csdn.net/lyy2017175913/article/details/141553861

版权

“ 当前阶段，爆火的大语言模型和用于文生图和文生图的扩散模型是两种不同的Transformer架构。大语言模型更倾向于多模态理解任务，即你问我答的方式；而扩散模型其实输入多模态生成的范畴，它更倾向于完成你说我生成的方式。我相信有些朋友肯定会有这样的疑惑-为什么不能用同一个架构来同时完成大语言模型和扩散模型呢？ 小编恰好能回答你这个疑问，本文提出了一个统一的Transformer框架，即Show-o，它统一了多模态理解和生成任务。与完全自回归模型不同， Show-o统一了自回归和（离散）扩散建模，从而自适应地处理各种和混合模态的输入和输出。统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。 ”

01-视觉语言大一统模型发展历程

01.01-NExT-GPT算法简介

近期多模态大型语言模型（MM-LLM）取得了令人振奋的进展，但它们大多数都受限于仅能理解多模态输入的局限性，无法以多种模态生成内容。由于人类总是通过各种模态感知世界并与人们交流，为了更好的评估模型达到的人工智能水平，开发能够接受和传递任何模态内容的任意到任意多模态语言模型变得至关重要。

为了填补这一空白，作者提出了一个端到端的通用任意到任意多模态语言模型系统，NExT-GPT。作者将一个LLM与多模态适配器和不同的扩散解码器连接起来，使NExT-GPT能够以任意文本、图像、视频和音频的组合感知输入并生成输出。通过利用现有训练充分的高性能编码器和解码器，NExT-GPT仅仅需要调整了一小部分参数（1%）的特定投影层，这不仅有利于低成本训练，而且便于扩展到更多潜在的模态。

除此之外，作者引入了一种模态切换指令调整（MosIT）并手动策划了一个高质量的MosIT数据集， 基于该数据集，NExT-GPT具备了复杂的跨模态语义理解和内容生成能力。

01.02-SEED-X算法简介

多模态基础模型的快速发展，尤其是在视觉语言理解和生成方面取得了重大进展。然而，SEED_LLAMA能力与现实世界的适用性之间仍存在较大的差距，主要是由于该模型有效响应各种用户指令和与各种视觉数据交互的能力有限。

在SEED-X这项工作中，作者专注于通过集成两个增强的特征来弥合这个差距：1**）理解任意大小和比例的图像；2）实现多粒度图像生成**作者提出了一个统一而通用的基础模型，即SEED-X，它能够为理解和生成任务建模多粒度的视觉语义。

除了在公共基准测试上获得的竞争力结果之外，SEED-X还展示了其在指令调优后处理跨各个领域的真实应用程序的有效性。 作者希望我们的工作将激励未来的研究，研究多功能多模式基础模型在现实世界中的应用。

01.03-Chameleon算法简介

**Chameleon是一个基于早期融合标记的混合模态大模型家族，它能够理解和生成任何任意序列的图像和文本。**作者从一开始就提出了一种稳定的训练方法、对齐配方和为早期融合、基于令牌的混合模式设置量身定制的架构参数化。

作者对该模型进行了全面的性能评估，包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成。Chameleon展示了广泛而通用的能力，包括在图像字幕任务中获得了最先进性能，在纯文本任务中优于Llama-2，同时获得与Mixtral 8x7B和Gemini Pro等大模型相当的性能，并在单个型号中执行非琐碎的图像生成。

根据人类对一种新的长格式混合模态生成评估的判断，它还匹配或超过了包括Gemini Pro和GPT-4V在内的更大的多模态大模型的性能，其中提示或输出包含图像和文本的混合序列。Chameleon的出现标志着在多模态文档的统一建模与生成方面迈出了重要一步。

需要说明的是，它与多模态大语言模型并不相同，多模态大语言模型只是支持多种不同模态的内容输入，支持独立的输出不同模态的内容，并不支持一次性输出图文混排的内容！

02-Show-o背景简介

如上图所示，在过去几年中，多模态智能的两个关键支柱任务理解和生成取得了重大进展。 对于多模态理解，像LLaVA这样的多模态大型语言模型（MLLM）在视觉问答（VQA）等视觉语言任务中表现出了卓越的能力。** 对于视觉生成**的另一个支柱，去噪扩散概率模型（DDPM）彻底改变了传统的生成范式，在文本到图像/视频生成方面取得了前所未有的成绩。

鉴于各个领域的这些成就，探索将它们联系起来的潜力是很自然的。 最近的一些工作试图从这两个不同的领域来组装专家模型，从而形成一个可以处理多模态理解和生成任务的统一框架。然而，现有的尝试主要是独立处理每个领域，并且通常涉及负责分别理解和生成的单个模型（如图c所示）。例如，NExT-GPT采用基础语言模型进行多模态理解，但需要额外的预训练扩散模型进行图像生成。尽管如此，像LLaVA这样的主流理解模型是一种Transformer架构，而像稳定扩散3（SD3）这样的领先模型却是另一个Transformer架构。 这引发了一个研究问题：一种Transformer能否同时处理多模态理解和生成任务？

近期，Chameleon证明了这是可能的。具体来说，Chameleon能够在早期融合不同的模式，通过相同的自回归建模方式生成文本和图像标记。 虽然自回归建模文本标记是合理的，但自回归建模图像块（或像素）是否更好尚不清楚。自回归预测图像的一个明显和重要的瓶颈是由于其因果关系而需要大量的采样步骤，特别是在处理更高分辨率的图像/视频时。 此外，（连续）扩散模型在视觉生成方面表现出比自回归模型更优越的能力，并受到了充分关注。

03-Show-o算法简介

本文提出了一个统一的Transformer框架，即Show-o，它统一了多模态理解和生成任务。与完全自回归模型不同，Show-o统一了自回归和（离散）扩散建模，从而自适应地处理各种和混合模态的输入和输出。

统一模型灵活地支持各种视觉语言任务，包括视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成。在各种基准测试中，它展示了与现有单个模型相当或更优的性能，具有为理解或生成而定制的等效或更多参数。 这显著突显了其作为下一代基础模型的潜力。
针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉[CSDN大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）]()👈

04-Show-o算法应用场景

04.01-文生图/视觉生成

上图展示了该算法在视觉生成/文生图任务上面的应用效果。尽管该算法生成的图像并不是很高清，毕竟它在探索着一个新的研究方向，需要一段时间的持续迭代与优化！

04.02-图像修复

上图展示了该算法在文本导向的图像修复或扩展任务上面的应用效果。通过观察与分析，我们可以发现：该算法可以利用文本提示很好的对图像进行修复和扩展。

04.03-混合多模态生成

上图展示了该算法在混合模态生成任务上面的应用效果。用户只需要输入第一帧的输入图片和接下来几帧的文本描述，该算法就可以生成相应的视频帧。

04.04-多模态问答/理解

上图展示了该算法在多模态问答/理解任务下面的应用场景。输入相同的输入图片和问题，尽管Chameleon和SEED-X都能对图片进行描述，但是Show-o算法的输出结果更胜一筹！

05-Show-o算法流程

上图展示了Show-o算法的整体流程。详细的流程如下所述：

首先，无论输入数据是如何形式，它都会被标记，然后被转化为格式化的输入序列。如图中的文本Tokenizer和图像Tokenizer。
然后，不同的任务会将不用的tokens信息送入一个包含因果关系和全注意力机制的自回归模型中；
最后，通过对输入的结果执行文本De-Tokenizer或图像De-Tokenizer操作，获得最终的输出结果。

总而言之，Show-o能够处理图像字幕、视觉问答、文本到图像生成、文本引导的修复/外推和混合模态生成多种任务。

06-Show-o算法实现细节

06.01-统一的文本提示格式

上图展示了作者提出的统一的文本提示格式。为了对多模态理解和生成任务进行统一学习，作者设计了一种统一的提示策略来格式化各种各样的输入数据。 给定一个图像-文本对（x，y），首先将其标记为M个图像标记u和N个文本标记v分别由图像和文本标记器标记。按照上图所示的格式，根据任务类型将它们形成一个输入序列。

具体来说，[MMU]和[T2I]是预定义的任务标记，用于指示输入序列的学习任务。[SOT]和[EOT]分别用作表示文本标记的开始和结束的特殊标记。同样，[SOI]和[EOI]是预定义的特殊标记，标记图像标记的开始和结束。

06.02-词语切分细节

Show-o是建立在预训练的LLM之上的，在离散空间上进行统一学习是一种很自然的方式。通过这种方式，作者维护了一个包含离散文本和图像标记的统一词汇表，以便统一模型可以具有相同的学习目标，即预测离散标记。

文本词语切分。Show-o基于预训练的LLM，作者使用相同的标记器进行文本数据标记，无需任何修改。
图像标记化。 根据MAGVIT-v2，作者使用大约35M的图像数据训练了一个无查找量化器。量化器保持大小为8192的码本，并将256×256分辨率的图像编码为16×16离散令牌（如图a所示）。作者使用MAGVIT-v2的原因在于它容易微调，可以作为具有时间压缩能力的视频标记器。

另一种方法是分别使用不同的标记器进行理解和生成。 受现有研究的启发，作者还从预训练的MAGVIT-v2和CLIP-ViT编码器中提取连续图像表示，作为探索提高多模态理解能力的输入（如图b和图c所示）。

06.03-全注意力机制

上图展示了全注意力机制（深色方块表示“允许参加”，白色方块表示“阻止参加”）的实现细节。**它是一种多功能的注意力机制，具有因果性和全注意力，可以根据输入序列的格式自适应地混合和变化。**如a、b和c所示，在包含文本和图像标记的序列中，**全注意机制使用因果注意明显处理文本标记，使用全注意明显处理图像标记。**此外，关于输入序列，（a）文本标记可以关注所有前面的图像标记，（b）图像标记可以访问所有前面的文本标记，以及（c）在只提供文本标记的情况下，注意力会降级为因果注意力。

06.04-采样步长的影响

作者在上图左侧以256*256的分辨率显示了不同采样步长的生成结果。**只需两个步骤，Show-o就可以生成与给定提示大致相关的图像。将采样步骤增加到8，可以合成与提示紧密相关的图像。当采样步长设置为16时，生成的图像变得更加详细和逼真。**相比之下，自回归模型团队在下采样率为16时需要256个采样步骤来生成相同分辨率的图像，这是该方法的16倍。

上图右侧显示了不同无分类器制导尺度t下生成图像的视觉变化。通过观察与分析，我们可以发现：在没有无分类器引导的情况下，生成的图像缺乏细节和对象。随着无分类器引导量表t逐渐增加到1.25和1.75，颜色和内容变得更加多样化，与给定的文本提示更加一致。

07-Show-o算法性能评估

07.01-主观效果性能评估

上图展示了该算法与多个SOTA的文生图算法在相同的文本提示下的生成效果。通过观察与分析，我们可以发现：与其它几个算法相比，该算法生成的结果更清晰、更有创意一些，当前该算法的生成效果与Flux相比，还是差了很多！

上图展示了该算法与其它SOTA方法（Chameleon、SEED-X）在相同的图像和文本提问下的回答结果。通过观察与额你想，我们可以发现：该模型的回答效果更胜一筹！

07.02-客观指标性能评估

上表展示了该算法与多个SOTA算法在多模态理解基准上面的评估效果。Show-o目前基于Phi1.5构建，因此作者将LLaVA-v1.5-Phi-1.5作为其基线。Und.与Gen.分别表示“理解”和“生成”。†表示采用CLIP-ViT连续表示的改进的Show-o。图中绿色突出显示Show-o和LLaVA基线的模型尺寸，并使用蓝色突出显示比我们更大的模型尺寸。通过观察与分析，我们可以发现：与基线算法相比，该算法在多项评估指标上面获得了较好的结果。与其它理解大模型相比，该模型的参数量更少，多项性能指标有待进一步提升。

上图展示了该算法与多个算法在GenEval基准上的文生图能力评估效果。Gen.分别表示“理解”和“生成”。通过观察与分析，我们可以发现：与其它模型相比，该模型的参数量更少，各项指标和整体指标都获得了不错的效果。
在大模型时代，我们如何有效的去学习大模型？

现如今大模型岗位需求越来越大，但是相关岗位人才难求，薪资持续走高，AI运营薪资平均值约18457元，AI工程师薪资平均值约37336元，大模型算法薪资平均值约39607元。
在这里插入图片描述

掌握大模型技术你还能拥有更多可能性：

• 成为一名全栈大模型工程师，包括Prompt，LangChain，LoRA等技术开发、运营、产品等方向全栈工程；

• 能够拥有模型二次训练和微调能力，带领大家完成智能对话、文生图等热门应用；

• 薪资上浮10%-20%，覆盖更多高薪岗位，这是一个高需求、高待遇的热门方向和领域；

• 更优质的项目可以为未来创新创业提供基石。

可能大家都想学习AI大模型技术，也_想通过这项技能真正达到升职加薪，就业或是副业的目的，但是不知道该如何开始学习，因为网上的资料太多太杂乱了，如果不能系统的学习就相当于是白学。为了让大家少走弯路，少碰壁，这里我直接把都打包整理好，希望能够真正帮助到大家_。

一、AGI大模型系统学习路线

很多人学习大模型的时候没有方向，东学一点西学一点，像只无头苍蝇乱撞，下面是我整理好的一套完整的学习路线，希望能够帮助到你们学习AI大模型。

在这里插入图片描述

第一阶段：从大模型系统设计入手，讲解大模型的主要方法；

第二阶段：在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用；

第三阶段：大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统；

第四阶段：大模型知识库应用开发以LangChain框架为例，构建物流行业咨询智能问答系统；

第五阶段：大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型；

第六阶段：以SD多模态大模型为主，搭建了文生图小程序案例；

第七阶段：以大模型平台应用与开发为主，通过星火大模型，文心大模型等成熟大模型构建大模型行业应用。