1 介绍
本文对多模态大型语言模型(MM-LLMs)进行了全面系统的综述,涵盖了模型架构、训练流程以及122个多模态大模型研究的概览。
文章深入探讨了输出投影器在机器翻译中的关键作用,并详细分析了模式生成器、训练管道、最先进的MM-LLM(SOTAMM-LLM)和未来发展趋势。MM-LLMs的发展方向包括扩展模型模式、丰富LLM多样性、提高MM生成能力和开发更具挑战性的基准测试。文章还提出了解决MM-LLMs在微调和幻觉缓解等方面所面临挑战的建议。MM-LLMs的时间表如图1所示。
图1 MM-LLMs的时间轴
2 模型体系结构
本节概述了通用模型架构的五个组件及其实现选择,如图2所示。MM理解的MM-LLM仅含前三个组件,训练时模式编码器、LLM主干和模式生成器通常冻结。主要优化集中于输入和输出投影器。投影器为轻量级组件,MM-LLM中可训练参数比例较小(约2%)。总参数量取决于核心LLM规模,因此MM-LLM训练效率高,适用于各种MM任务。
图2 MM-LLMs的一般模型架构以及每个组件的实现选择。
2.1 模态编码器
模态编码器将来自不同模态的输入进行编码,针对不同的模态,存在多种预训练的编码器选项。图像编码器包括NFNet-F6、ViT等,视频编码器通常使用CFormer、HuBERT等,三维点云模态使用ULIP-2和PointBERT等。此外,MM-LLMs使用ImageBind涵盖多种模态的统一编码器。
2.2 输入投影器
投影器ΘX→T用于将不同模态的特征与文本特征空间对齐,产生的特征作为提示PX输入到LLM主干中。投影器可以通过线性投影器或多层感知器实现,也可以使用交叉注意等更复杂的方法。Q-Former使用可学习的查询提取相关特征,P-Former生成参考提示对齐Q-Former的提示,MQ-Former对齐多尺度视觉和文本信号。但这些方法都需要额外的PT过程进行初始化。
2.3 LLM主干
MM-LLM以LLM为核心代理,它具有零样本泛化、少数样本ICL、思维链(CoT)和指令遵循等显著属性。LLM主干处理各种模态的表示,参与语义理解、推理和输入的决策。此外,一些工作引入了参数高效的微调方法,如前缀微调、LoRA和层规范微调。MMLLM中常用的LLM包括Flan-T5、ChatGLM等。这些LLM在多模态场景中具有广泛的应用前景。
2.4 输出投影仪
输出投影器ΘT→X将LLM中的令牌表示SX映射到MGX理解的HX。给定X文本数据,输入t到LLM生成SX,再映射到HX。为了使HX与MGX文本表示对齐,需最小化两者间距离。优化仅依赖字幕文本,不利用其他资源。HX由ΘT→X(SX)得到,τX是MGX的文本编码器。输出投影器通过可学习的解码器或MLP实现。
2.5 模式生成器
模式生成器MGX负责生成不同模式的输出,使用现有的隐扩散模型(LDMs)进行图像、视频和音频合成。输出投影器映射的特征HX作为条件输入用于噪声消除过程中的MM内容生成。在训练期间,首先通过预训练VAE将地面真实内容转换为潜在特征z0,然后向z0中添加噪声以获得噪声的潜在特征zt,并使用预训练的Unet计算条件LDM损失LX-gen。优化参数以最小化损失。
3 训练管道
MM-LLMs训练流程可以被划分为两个主要阶段:MM PT和MM IT。
3.1 MM PT
在PT阶段,通常利用XText数据集进行训练,输入和输出投影器被优化以实现各种模式之间的对齐。对于MM理解模型,优化仅关注公式(2),而对于MM生成模型,优化包括公式(2)、(4)和(5)。X-Text数据集包括图像文本、视频文本和音频文本,其中图像文本有两种类型:图像文本对和交错的图像文本语料库。详细信息在附录G中的表3中显示。
3.2 MM IT
MM IT是一种通过指令格式化的数据微调预训练MM-LLMs的方法(魏等,2021)。它让MM-LLMs能够泛化到未见过的任务,提高零击性能。该概念在NLP领域催生了后续的成功,如InstructGPT、OPT-IML和InstructBLIP。MM IT包括监督微调(SFT)和人类反馈驱动的强化学习(RLHF),旨在与人类意图对齐并增强MM-LLMs的交互能力。SFT将PT阶段数据转换为指令感知格式,并使用相同的优化目标微调预训练的MM-LLMs。RLHF则依赖于有关MM-LLMs响应的反馈进行进一步的微调,使用强化学习算法集成不可微分的自然语言反馈(NLF)。现有的MM-LLMs在MM PT和MM IT阶段使用的数据集多样,但都是附录G表3和表4中数据集的子集。
4 SOTA MM-LLM
如图3所示,我们对122篇SOTA MM-LLM进行了分类,从功能和设计角度进行划分。在设计方面,分为“工具使用”和“端到端”两种方式。基于设计公式,对43个架构和训练数据集规模进行了全面比较如表1。总结MM-LLM的开发趋势,包括:从专注于MM理解到特定模式的生成,进一步演变为任意到任意模式转换;从MM预训练到SFT和RLHF,训练管道不断改进,努力更好地与人类意图对齐,并增强模型的会话交互能力;接受多样化的扩展模式;纳入更高质量的训练数据集;采用更有效的模型架构,从复杂Q-和P-前馈输入投影模块过渡到更简单但有效的线性投影器VILA。
图3 MM-LLM的分类。I:图像,V:视频,A/S:音频/语音,T:文本。ID:文档理解,IB:输出框边界,IM:输出分割掩模,IR:输出检索图像。
表1 43个主流MM-LLM的总结。I→O:输入到输出模态,I:图像,V:视频,A:音频,3D:点云,T:文本。在 Modality Encoder 中,“-L”表示 Large,“-G”表示 Giant,“/14”表示 patch 大小为 14,“@224”表示图像分辨率为 224 × 224。#.PT 和 #.IT 分别表示 MM PT 和 MM IT 期间数据集的规模。† 包括不可公开访问的内部数据。
5 基准和性能
为了比较不同视觉语言基准上的主要MMLLMs,我们整理了一个表格(表2),并介绍了各种论文中使用的训练配方和解决方案。其中,一些方法通过连接相邻的视觉令牌来减少令牌序列长度,而其他方法则通过提高视觉编码器的分辨率来增强对富文本图像、表格和文档内容的理解。高质量的SFT数据也被介绍用于提高特定任务的性能。此外,VILA还揭示了几项关键发现,包括在LLM后端上执行PEFT促进深度嵌入对齐的重要性,交错的图像-文本数据是有益的,而单独的图像文本对是不够理想的。这些发现对于ICL任务至关重要。
表2 主流MM-LLMs在18个VL基准上的比较。红色表示最高结果,蓝色表示第二高结果。‡表示ShareGPT4V(Chen等人,2023f)重新实现的测试结果,这些结果在基准或原始论文中缺失。*表示在训练过程中观察到训练图像。
6 未来方向
MM-LLMs在以下多个领域中所展现出的充满潜力的未来发展方向:
更强大的模型。 MM-LLMs增强力量的四个关键领域包括扩展模式、多样化的LLM、提高MM IT数据集质量和加强MM生成能力。其中,扩展模式将MM-LLMs扩展到其他模式,多样化的LLM提供灵活选择最合适的LLM,提高MM IT数据集质量可增强MM-LLMs在执行用户命令方面的有效性,而加强MM生成能力则可探索整合基于检索的方法以增强模型的整体性能。
更具挑战性的基准。 现有的基准不足以挑战MM-LLMs的能力,因为许多数据集在某种程度上以前出现在PT或IT集合中。为了评估MM-LLMs的能力,需要开发一个更具挑战性的更大规模的基准,包括更多模式并使用统一的评估标准。此外,介绍了一些新的基准,如GOAT-Bench、MathVista、MMU、CMMMU等,用于评估MM-LLMs在识别和响应meme中社会虐待的微妙方面时的能力,以及评估MM-LLMs在视觉上下文中的数学推理能力。此外,还对MMLLM进行了多面板VQA基准测试等研究。
移动/轻量级部署。 为了在资源受限平台上部署MM-LLM并实现最佳性能,需要采用轻量级实现。近年来,已经进行了许多类似的研究,通过比较性能或最小损失实现了有效的计算和推理。然而,这一领域仍需要进一步探索以取得进一步的进展。MobileVLM是一种显著的方法,通过降低LLaMA的规模和引入轻量级的下采样投影器来提高计算速度。
实体智能。 实体智能旨在通过理解环境、识别对象、评估空间关系并制定全面计划来复制人类对环境的感知和交互。该领域的一些典型工作包括引入多身体代理和增强实体代理与现实世界的互动能力。虽然基于MM-LLM的实体智能在机器人集成方面取得了进展,但需要进一步探索来增强机器人的自主性。
持续学习。 MM-LLMs的持续学习分为两个阶段:持续的PT和持续的IT。为了解决持续学习中的两个主要挑战,即灾难性遗忘和负向正向转移,最近提出了一种连续MMIT基准,可以在原始MMIT阶段学习任务的同时,为MM-LLMs连续微调提供新MM任务的能力,同时保持对已学习任务的优异性能。
减轻幻觉。 幻觉涉及生成对象描述,这些对象在没有视觉线索的情况下出现,根源包括训练数据中的偏见和注释错误。当前缓解方法包括利用自我反馈作为视觉线索,但挑战在于区分准确和幻觉输出之间的区别,并提高输出可靠性。同时,与段落分隔符相关的语义漂移偏见也需要关注。
MM-LLMs的最新进展跟踪:https://mm-llms.github.io
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费
】
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。