多模态大语言模型最新进展

1 介绍

在过去的一年中,多模态大型语言模型(MM-LLMs)取得了实质性的进步,通过成本效益良好的训练策略增强了现成的LLMs,以支持MM输入或输出。由此产生的模型不仅保留了LLM固有的推理和决策能力,还为各种不同的MM任务提供了动力。

在本文中,我们提供了一个全面的调查报告,旨在促进MM-LLMs的进一步研究。首先,我们概述了模型架构和训练流水线的通用设计制定。随后,我们介绍了一个包括122个MM-LLM的分类,每个都以其特定的制定而著称。此外,我们审查了选定的MM-LLM在主流基准上的性能,并总结了增强MM-LLM潜力的关键训练配方。最后,我们探讨了MM-LLMs的未来发展方向,同时保持一个实时跟踪网站1来追踪该领域的最新发展。我们希望这份调查报告能为MM-LLMs领域的持续进步做出贡献。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

图1 MM-LLMs的时间轴

2 模型体系结构

本节介绍了构成通用模型架构的五个组件,如图2,包括模式编码器、LLM主干、模式生成器、输入和输出投影器。其中,MM-LLM仅包括前三个组件,并强调了投影器是轻量级的组件,MM-LLM可以高效地训练以支持各种MM任务。总体参数数量取决于使用的核心LLM的规模。

图2 MM-LLMs的一般模型架构以及每个组件的实现选择。

2.1 模态编码器

模态编码器负责将不同模态的输入编码为相应的特征,针对不同的模态,存在多种预训练的编码器选项。视觉模态可以使用多种编码器,如NFNet-F6、ViT等。音频模态通常使用CFormer、HuBERT等编码器。三维点云模态通常使用ULIP-2和PointBERT等编码器。此外,还介绍了一些MM-LLMs,特别是ImageBind,这是一种涵盖多种模态的统一编码器。

2.2 输入投影器

输入投影器负责将其他模态编码特征与文本特征空间对齐,作为提示被馈送到LLM主干中。有多种实现方式,如线性投影器、多层感知器、交叉注意等。Q-、P-、MQ-Former需要对PT过程进行初始化。这些方法的目标是尽可能地最小化X-条件下的文本生成损失。

2.3 LLM主干

MM-LLM是一种基于LLM的模型,继承了LLM的一些显著属性,如零样本泛化、少数样本ICL、思维链(CoT)和指令遵循。它能够处理各种模态的表示,参与语义理解、推理和输入的决策,并产生直接的文本输出和来自其他模态的信号标记。一些工作还引入了参数高效的微调方法,如前缀微调、LoRA和层规范微调。MM-LLM中常用的LLM包括Flan-T5、ChatGLM等。

2.4 输出投影仪

输出投影器将信号令牌表示映射到可被模式生成器理解的特性中,通过最小化HX与MGX的文本表示之间的距离,促进映射特性与文本表示的对齐。优化仅依赖于字幕文本,不利用任何音频或视觉资源。输出投影器由具有可学习解码器特征序列或MLP的可调谐微缩器实现。

2.5 模式生成器

模式生成器MGX负责生成不同模式的输出,输出投影器映射的特征HX作为条件输入用于噪声消除过程中的MM内容生成。在训练期间,首先通过预训练VAE将地面真实内容转换为潜在特征z0,然后向z0中添加噪声以获得噪声的潜在特征zt,并使用预训练的Unet计算条件LDM损失LX-gen。

3 训练管道

MM-LLMs训练流程可以被划分为两个主要阶段:MM PT和MM IT。

3.1 MM PT

在PT阶段,利用XText数据集训练输入和输出投影器,以实现不同模式之间的对齐。MM理解模型仅优化公式(2),而MM生成模型则优化公式(2)、(4)和(5),后者还包括真实信号标记序列。X-Text数据集包括图像、视频和音频文本,图像文本有两种类型:图像文本对和交错的图像文本语料库。详细信息见附录G中的表3。

3.2 MM IT

MM IT是一种使用指令格式化的数据微调预训练的MM-LLMs的方法,通过这个过程,MM-LLMs可以泛化到未见过的任务,从而提高零击性能。MM IT包括监督微调(SFT)和人类反馈驱动的强化学习,旨在与人类意图对齐并增强MM-LLMs的交互能力。SFT将PT阶段数据的一部分转换为指令感知格式,而RLHF涉及进一步的微调模型,依赖于有关MM-LLMs响应的反馈。现有的MM-LLMs在MM PT和MM IT阶段使用的数据集是多样的,但它们都是附录G表3和表4中数据集的子集。

4 SOTA MM-LLM

图3从功能和设计角度对SOTA MM-LLM进行了分类,并全面比较了43个架构和训练数据集规模,如表1。总结了MM-LLM的现有趋势,包括从专注于MM理解到特定模式的生成,从MM预训练到SFT和RLHF,并采用更有效的模型架构。同时,也纳入了更高质量的训练数据集和多样化的扩展模式。这些趋势表明MM-LLM在不断改进和演进,以更好地适应人类意图并增强模型的会话交互能力。

图3 MM-LLM的分类。I:图像,V:视频,A/S:音频/语音,T:文本。ID:文档理解,IB:输出框边界,IM:输出分割掩模,IR:输出检索图像。

表1 43个主流MM-LLM的总结。I→O:输入到输出模态,I:图像,V:视频,A:音频,3D:点云,T:文本。在 Modality Encoder 中,“-L”表示 Large,“-G”表示 Giant,“/14”表示 patch 大小为 14,“@224”表示图像分辨率为 224 × 224。#.PT 和 #.IT 分别表示 MM PT 和 MM IT 期间数据集的规模。† 包括不可公开访问的内部数据。

5 基准和性能

为了提高MMLLMs的有效性,可以从训练配方中提取一些关键点。首先,更高的图像分辨率可以提供更多的视觉细节,但需要权衡分辨率和成本。其次,高质量的SFT数据可以提高特定任务的性能。此外,一些模型还发现交错的图像-文本数据是有益的,而单独的图像文本对是不够理想的。最后,在SFT期间重新混合仅包含文本指令数据与图像文本数据可以提高VL任务的准确性。这些见解可以帮助优化MMLLMs的性能。

表2 主流MM-LLMs在18个VL基准上的比较。红色表示最高结果,蓝色表示第二高结果。‡表示ShareGPT4V(Chen等人,2023f)重新实现的测试结果,这些结果在基准或原始论文中缺失。*表示在训练过程中观察到训练图像。

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

6 未来方向

在这一部分,我们探讨MM-LLMs在以下方面的有前途的未来发展方向:

增强MM-LLMs的力量的四个关键领域:(1)扩展模式:当前的MMLLM主要支持图像、视频、音频、3D和文本等模式,但现实世界涉及更广泛的各种模式,将MM-LLMs扩展到其他模式将增加其通用性和普遍适用性;(2)多样化的LLM:整合各种类型和大小的LLM为从业人员提供了选择最合适的LLM的灵活性;(3)提高MM IT数据集质量:当前MM IT数据集存在改进和扩展空间,多样化的指令范围可提高MM-LLMs在执行用户命令方面的有效性;(4)加强MM生成能力:大多数MMMLLM主要关注MM理解,但一些模型已纳入MM生成能力,探索整合基于检索的方法可能增强模型的整体性能。

更具挑战性的基准: 现有基准可能不足以挑战MM-LLMs的能力,因为许多数据集在PT或IT集合中已出现。此外,当前基准主要集中在VL子领域。为MM-LLMs开发更具挑战性的更大规模的基准,包括更多模式并使用统一的评估标准是至关重要的。例如,GOAT-Bench用于评估MM-LLMs在meme中识别社会虐待的能力,MathVista评估数学推理能力,MMU和CMMMU分别为英语和中文设计了多学科MM理解与推理基准。BenchLMM评估跨风格视觉能力,Liu等人研究了光学字符识别能力。

移动/轻量级部署: 在资源受限平台上部署MM-LLM并实现最佳性能至关重要。轻量级实现如MobileVLM通过降低规模和提高计算速度实现无缝部署。其他研究如TinyGPT-V、Vary-toy、Mobile-Agent、MoE-LLaVA和MobileVLM V2也致力于有效计算和推理。然而,这一领域仍需进一步探索。实体智能是一种使机器人能像人类一样感知和交互环境的技术。它涉及理解环境、识别对象、评估空间关系并制定任务计划。实体AI任务如实体规划、实体视觉问答和实体控制,让机器人能自主执行扩展计划。该领域的研究如PaLM-E和EmbodiedGPT,在增强机器人与现实世界的互动能力方面取得了进展。

持续学习 对于更新MMLLMs并赋予它们新技能至关重要。然而,由于训练成本高昂,需要高效的方法来利用新数据,同时避免重新训练的成本。CL分为持续的PT和IT两个阶段,并面临灾难性遗忘和负向正向转移等挑战。

减轻幻觉 是提高MMLLMs输出的重要问题。幻觉可能源于训练数据中的偏见和注释错误。目前的方法包括利用自我反馈作为视觉线索来减轻幻觉。然而,仍需区分准确和幻觉输出,并在训练方法上取得进展以提高输出可靠性。

7 结论

本文全面调查了MM-LLMs的最新进展,提供了模型架构的通用设计配方和训练管道的详细概述,并介绍了各种SOTA模型。同时,我们也展望了该领域的未来发展,并建立了一个专门的网站进行实时跟踪(https://mm-llms.github.io)。虽然受限于篇幅限制,我们无法深入探讨所有技术细节,但我们的概述为研究人员提供了一些启示,并有望为MM-LLMs领域的发展做出贡献。我们将继续密切关注并不断加强相关细节,随着新见解的出现而不断充实。

如何学习AI大模型?

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段: 从大模型系统设计入手,讲解大模型的主要方法;

第二阶段: 在通过大模型提示词工程从Prompts角度入手更好发挥模型的作用;

第三阶段: 大模型平台应用开发借助阿里云PAI平台构建电商领域虚拟试衣系统;

第四阶段: 大模型知识库应用开发以LangChain框架为例,构建物流行业咨询智能问答系统;

第五阶段: 大模型微调开发借助以大健康、新零售、新媒体领域构建适合当前领域大模型;

第六阶段: 以SD多模态大模型为主,搭建了文生图小程序案例;

第七阶段: 以大模型平台应用与开发为主,通过星火大模型,文心大模型等成熟大模型构建大模型行业应用。

在这里插入图片描述

👉学会后的收获:👈
• 基于大模型全栈工程实现(前端、后端、产品经理、设计、数据分析等),通过这门课可获得不同能力;

• 能够利用大模型解决相关实际项目需求: 大数据时代,越来越多的企业和机构需要处理海量数据,利用大模型技术可以更好地处理这些数据,提高数据分析和决策的准确性。因此,掌握大模型应用开发技能,可以让程序员更好地应对实际项目需求;

• 基于大模型和企业数据AI应用开发,实现大模型理论、掌握GPU算力、硬件、LangChain开发框架和项目实战技能, 学会Fine-tuning垂直训练大模型(数据准备、数据蒸馏、大模型部署)一站式掌握;

• 能够完成时下热门大模型垂直领域模型训练能力,提高程序员的编码能力: 大模型应用开发需要掌握机器学习算法、深度学习框架等技术,这些技术的掌握可以提高程序员的编码能力和分析能力,让程序员更加熟练地编写高质量的代码。

在这里插入图片描述

1.AI大模型学习路线图
2.100套AI大模型商业化落地方案
3.100集大模型视频教程
4.200本大模型PDF书籍
5.LLM面试题合集
6.AI产品经理资源合集

👉获取方式:
😝有需要的小伙伴,可以保存图片到wx扫描二v码免费领取【保证100%免费】🆓

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值