【论文解读】多模态大语言模型综述

合合技术团队

已于 2024-03-12 10:36:14 修改

阅读量3.7k

点赞数 60

分类专栏：【论文发布】文章标签：人工智能深度学习语言模型大数据

于 2024-03-12 10:31:44 首次发布

本文链接：https://blog.csdn.net/INTSIG/article/details/136643792

版权

一、简要介绍

多模态大语言模型（MLLM）是近年来一个新兴的研究热点，它利用强大的大语言模型（LLM）作为大脑进行多模态研究。MLLM令人惊讶的涌现能力，比如基于图像写故事和无ocr的数学推理，在传统方法中是罕见的，这表明了一条通往人工通用智能的潜在道路。本文旨在对MLLM的最新研究进展进行跟踪和总结。首先，论文提出了MLLM的公式，并描述了它的相关概念。然后，论文讨论了关键的技术和应用，包括多模态指令调整（M-IT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。最后，论文讨论了现有的挑战，并指出了很有前景的研究方向。鉴于MLLM的时代才刚刚开始，作者将继续更新这项调查，并希望它能激发更多的研究。

二、概要

本文将近期代表性MLLM分为四种主要类型：多模态指令调优（MIT）、多模态上下文学习（M-ICL）、多模态思维链（M-CoT）和LLM辅助视觉推理（LAVR）。前三个构成了MLLM的基础原理，最后一个是以LLM为核心的多模态系统。请注意，这三种技术是相对独立的，可以结合使用。因此，论文对一个概念的说明也可能涉及到其他概念。论文根据四个主要类别组织调查，并按顺序进行介绍。论文首先详细介绍了M-IT（3.1），以揭示LLM如何从两个方面来适应多模态：架构和数据。然后论文介绍了M-ICL（3.2），这是一种在推理阶段常用的提高few-shots性能的有效技术。另一个重要的技术是M-CoT（3.3），它通常用于复杂的推理任务。之后，论文进一步总结了LLM在LAVR（3.4）中主要扮演的几个角色，这经常涉及到这三种技术。最后，论文总结了潜在的研究方向。

三、方法

3.1.多模态指令调整

3.1.1介绍

指令是指对任务的描述。指令调优是一种技术，涉及在指令格式数据集上对预先训练的LLM进行微调。通过这种方式进行调优，LLM可以通过遵循新的指令来泛化到不可见的任务，从而提高zero-shot性能。这个简单而有效的想法激发了在NLP领域的后续工作的成功，如ChatGPT、DoucltGPT、FLAN 和OPT-IML。指令调优与相关的典型学习范式之间的比较如图1所示。监督微调方法通常需要许多特定于任务的数据来训练特定于任务的模型。提示方法减少了对大规模数据的依赖，并可以通过提示工程来完成专门的任务。在这种情况下，虽然few-shots性能得到了改善，但zero-shot性能仍然是相当平均的。不同的是，指令调优学习如何推广到看不见的任务，而不是像两个对应任务那样适合特定的任务。此外，指令调优与多任务提示高度相关。

相比之下，传统的多模态模型仍然局限于前两个调优范式，缺乏zero-shot能力。因此，最近的许多工作都探索了将LLM中的指令调优的成功扩展到多模态。为了从单模态扩展到多模态，对数据和模型都需要进行相应的自适应。对于这些数据，研究人员通常通过调整现有的基准数据集或通过自指令来获取M-IT数据集。对于该模型，一种常见的方法是将外语模式的信息注入到LLM中，并将其视为强大的推理者。相关工作要么直接将外语嵌入与LLMs对齐，要么诉诸专家模型将外语模式翻译成LLMs可以摄取的自然语言。通过这种方式，该工作通过多模态指令调优将LLM转换为多模态聊天机器人和多模态通用任务求解器。在本节的以下部分中，论文首先提供基础知识（3.1.2）。在过渡到M-IT的描述之前，论文还额外引入了一个共同的过程，即对齐预训练（3.1.3）。然后构造剩余的内容，如图2所示：论文首先介绍M-IT数据的收集方式（3.1.4），然后详细讨论MLLM的模型自适应，即弥合不同模式之间差距的各种方法（3.1.5）。最后，论文介绍了评估方法来评估指令调整的MLLM（3.1.6）。

3.1.2初步研究

本节简要说明了多模态指令样本的一般结构和M-IT的通用过程。一个多模态指令样本通常包括一个in指令和一个输入-输出对。该指令是一种描述任务的自然语言句子，例如，“详细描述图像。”输入可以是一个M-IT的图像-文本对，比如视觉问题-回答（VQA）任务，或者只能是像图像字幕任务这样的图像。输出是对基于输入条件的指令的答案。说明模板是灵活的，并可人工设计，如表1所示。请注意，指令样本也可以推广到多轮指令，其中多模态输入是共享的。