LLaVA-NeXT-Interleave: Tackling Multi-image, Video, and 3D in Large Multimodal Models

Abstract

视觉指令调整在提高大型多模态模型 (LMM) 的能力方面取得了长足的进步。然而,现有的开放LMMs主要关注单幅图像任务,它们对多图像场景的应用研究较少。此外,先前的 LMM 研究分别处理不同的场景,因此无法用新的新兴能力概括跨场景。为此,我们引入了LLAVA-NeXT-Interleave,它同时处理LMMs中的多幅图像、多帧(视频)、多视图(3D)和多头(单图像)场景。为了实现这些功能,我们将交错数据格式视为通用模板,并使用 1,177.6k 个样本编译 M4-Instruct 数据集,跨越 4 个具有 14 个任务和 41 个数据集的主域。我们还策划了LLAVAInterleave Bench,以全面评估LMM的多图像性能。通过广泛的实验,LLAVA-NeXT-Interleave 在多图像、视频和 3D 基准测试中取得了领先的结果,同时保持了单图像任务的性能。此外,我们的模型还展示了几个新兴功能,例如,跨不同设置和模式传输任务。代码可在 https://github.com/LLaaVA-VL/LLaaVA-NeXT 获得。

Introduction

大型多模态模型 (LMM) 的最新进展 [11, 12, 26, 37, 43, 64, 66] 在各种多模态环境中展示了令人印象深刻的能力,推进了对人工智能的追求。通过广泛的视觉语言数据[46,47],他们通过对齐视觉编码器[9,44,45],将大型语言模型(LLM)[5,8,52,53]与视觉模态赋权。这种集成推动了人工智能领域的发展,使复杂的图像和语言理解任务以前所未有的准确性执行。

然而,大多数开源LMMs[11,24,34,36]主要集中在推动单幅图像场景的性能极限上,更复杂的多图像场景在很大程度上仍有待探索。鉴于许多现实世界的应用程序需要多图像功能,例如全面的多图像分析,这种疏忽是显着的。传统上,研究人员通过为每个应用场景训练单独的特定于任务的模型来应对这些挑战,例如多图像 [1, 19, 27]、视频 [7, 29, 67] 和 3D [14, 15, 58]。这既费力又耗时,导致碎片化的方法效率低下,而且往往不可扩展。考虑到计算机视觉设置和数据格式的不同范围,迫切需要为 LMM 开发一个通用框架,该框架可以有效地在这些不同的上下文中运行。

在本文中,我们观察到图像-文本交错格式可以自然地作为通用数据模板来统一不同的场景,例如单图像或多图像作为特殊情况,视频作为多帧,3D作为多视图,如图2所示。因此,我们提出了llaVA-NeXT-Interleave,这是一种环绕LMM,它将模型能力扩展到各种现实世界设置,如多图像、多帧(视频)、多视图(3D),同时保持多补丁(单图像)性能的性能。我们将四种设置表示为 M4。

我们的方法的核心创新在于利用图像-文本交错格式作为能够容纳不同场景的通用数据模板,并构建相关的视觉指令跟踪数据。这种观点不仅简化了不同领域的训练过程,而且还允许模型由于跨域任务组合而出现新功能。

我们的贡献总结如下:

  • 交错数据格式统一不同的任务。我们将多图像、视频、3D和单图像数据转换为交错的训练格式,它将不同的任务统一在一个LMM中。

  • 新数据集和基准。我们编译了一个高质量的训练数据集 M4-Instruct,其中包含 1177.6 K个样本,以启用具有 M4 能力的 LMM,该功能跨越 4 个主要域(多图像、视频、3D 和单图像),具有 14 个任务和 41 个数据集。我们还整理了 LlaVA-Interleave Bench,这是一个多样化的基准来评估多图像性能,包括 7 个新收集的,13 个存在于/域外基准测试中。

  • SoTA性能。使用单个模型,与之前的 SoTA 相比,LLaVANeXT-Interleave 可以在不同的多图像任务中取得领先的结果,同时保持单图像性能,如图 1 所示。

  • 跨任务转移的新兴能力。通过对一组不同的任务进行联合训练,我们的模型展示了在不同设置和模式之间传输任务的新兴能力。例如,从发现图像之间的差异到视频。

    在这里插入图片描述
    图1。三种交错场景下的性能比较,包括多图像、多帧(视频)和多视图(3D)。我们的 LLAAVA-NeXT-Interleave 模型在各种评估基准上实现了 SoTA 性能。

Related Work

Interleaved Image-text Training Data。作为更通用的格式,交错的图像-文本数据可以使 LMM 具有两个独特能力:现实世界多图像应用场景中的多模态上下文学习 (ICL) 能力和指令跟随能力。前者的上下文场景将提示中的几个图像-文本示例交错为任务演示,以少量的方式将LMMs适应推理阶段的新任务。Flamingo[1]是第一个展示这种能力的模型,因此被认为是多模态社区的GPT-3时刻。通常,在网络规模的原始交错图像-文本序列上进行预训练后,出现了多模态ICL能力。在开源社区中,MMC4 [68] 引入了跨越日常主题的公共 101.2M 交错数据集,OBELICS [22] 还提出了一个包含 141M 交错网页的过滤数据集。Kosmos-1 [18] 整理了一个 710 万个多模态语料库,包括任意交错的文档。为了明确启用 ICL 能力,MIMIC-IT [25] 提出了一个自动管道,以在指令微调阶段创建 2.8M 多模态样本。另一方面,后一种多图像场景旨在解决涉及多图像的各种实际应用场景。VPG-C [27] 的训练数据使用 ChatGPT 收集了 4 个新数据集。Mantis-Instruct [19] 编译了现有的 11 个交错数据集并创建 4 个新数据集。所提出的 M4-Instruct [19] 编译了现有的 41 个交错数据集并创建 6 个新数据集,涵盖了比 Mantis-Instruct 高得多的场景多样性。

Interleaved LMMs。作为具有代表性的闭源LMM,GPT-4V[42]和Gemini[12]都支持真实世界的多图像应用场景,性能领先。使用上述各种公共数据集,社区开发了配备显着多图像熟练程度的开源 LMM。ICL 性能通常被认为是评估多模态预训练,已在几个已知的 LMM 中采用,例如 OpenFlamingo [2]、IDEFICS 系列 [22, 23]、VILA [33] 和 MM1 [41]、Emu2 [51]。Otter [25] 是从 OpenFlamingo 初始化的,并在 MIMIC-IT 数据集上进行微调,以进一步提高 ICL 通过指令调整的能力。相比之下,尽管 Mantis [19],但在 LMM 中使用各种真实世界的多图像应用程序的指令调整研究较少。所提出的 LLAAVA-NeXT-Interleave 不仅拓宽了改进的实验结果所证明的多图像场景本身,而且还将设置推广到具有一个模型的不同场景,例如视频、3D 和单图像。跨场景训练导致新兴能力,在新多图像上下文中实现零样本任务组合。

Interleaved Benchmarks.为了评估 LMM 的交错多图像能力,各种场景中有几个高质量的基准。LMM 的 ICL 基准 [20, 49] 从少样本到多镜头设置全面评估它们的交错技能。对于更具挑战性的多图像场景,以前的工作主要集中在用于评估的特定领域,包括用于日常生活 VQA 的 NLVR2 [50]、用于同事级解决问题的 MMMU [61]、MathVerse-mv [65] 和 SciVerse-mv [13] 用于数学和科学推理,BLINK [10] 挑战 LMM,Mantis-Eval [19] 用于多图像理解。为了进一步评估多图像场景集合上的LMM,DEMON[27]是第一个用477K样本编译几十个数据集的基准。随着数据量大、多样性高,DEMON为多图像研究奠定了良好的基础。不幸的是,它还继承了现有数据集的大量低质量数据样本。为了便于评估,所提出的LLAVA-Interleave Bench策划了高质量的样本,包括特定的(合成的、数学的、低级的)和一般的(日常的、真实世界的、文本丰富的)多图像场景。使用 9 个新策划和 13 个现有数据集,我们将它们分为域内 (12.9K) 和域外 (4.1K) 方案。并发多图像评估基准包括MuirBench[54]和ReMI[21]。

在这里插入图片描述

图 2. 我们的 M4-Instruct 中的任务。(a) 展示了交错多图像场景(视觉故事讲述)的示例。(b)、© 和 (d) 表明视频、3D 和单图像数据也可以组织为交错数据格式以进行统一处理。

Interleaved Multi-image Tasks & Data

Task Overview

我们观察到不同的计算机视觉场景通常由交错的多图像格式表示,例如视频、3D 和单图像数据。因此,为了赋予LLAVA-Interleave具有不同的能力,如图2所示,我们采用交错的多图像格式来统一以下四个任务的数据输入:

Multi-image scenarios包括视觉指令,将交错的视觉语言输入与多幅图像相结合。此设置涵盖了我们训练数据中包含的 12 个具有挑战性的现实世界任务,例如发现差异、视觉故事讲述、图像编辑指令生成、交错多图像对话、多图像拼图、低级多图像评估等。

Multi-frame scenarios是指通过将视频采样成多帧,保留多图像序列的时间视觉线索,将视频作为输入数据。我们主要关注 2 个任务:视频字幕和视频 VQA。

Multi-view scenarios从不同的角度通过多视图图像描述 3D 环境,其中视觉对应和视差可以指示 3D 世界中的空间信息。对于 3D 感知,我们包括 2 个任务:嵌入式 VQA(对话和规划)和 3D 场景 VQA(字幕和接地)。

Multi-patch scenarios代表了传统的单图像任务。随着LLaVANeXT[36]中“任何分辨率”的设计,我们将高分辨率图像划分为多个低分辨率补丁,以实现高效的视觉编码,与我们的交错的多图像格式兼容。

M4-Instruct

为了增强全方位的多图像能力,我们精心策划了一个全面的训练数据集,包括1177.6K实例,称为M4-Instruct,广泛跨越多图像、多帧和多视图场景,具有14个任务和41个数据集,以及多补丁数据,以保持基本的单图像性能。我们在图 3 中展示了前三个场景的任务示例。

我们在图 4 中展示了 M4-Instruct 的数据概述,表 15 中的详细数据统计。对于多图像数据,大多数数据集都是从以前的公共数据中收集的,并通过特定于任务的指令严格转换为我们的统一格式,其中一些受到 DE-图 5 的启发。 LLAVA-Interleave Bench 统计数据。MON[27]和Mantis[19]。最重要的是,我们还利用 GPT-4V [43] 来注释 3 个新任务,以实现更多样化的功能,即现实世界的差异、合成差异和 Twitter 帖子。对于视频数据,我们从 LlaVA-Hound [63] 收集了 255K 子集,包括 240K 视频 VQA 和 15K 视频字幕。我们还包括 NExT-QA [57] 和 STAR [55] 来扩展我们的视频训练数据。对于 3D 数据,我们从 nuScenes QA [6]、ALFRED [48]、ScanQA [3] 和 3D-LLM [16] 广泛收集训练集,涵盖室外和室内场景。对于单幅图像数据,我们从LLAVA-NeXT[24]中随机抽取40%的阶段2微调数据,旨在保持单幅图像的容量。

在这里插入图片描述

图3。M4-Instruct的任务示例,包含多图像、多帧(视频)和多视图(3D)中的不同场景。

为了全面评估交错的多图像性能,我们引入了LMM的LLAVA-Interleave Bench,由13个具有17K个实例的挑战性任务组成。我们在图3中展示了基准测试的数据概述,表16中的详细数据统计。具体来说,我们将多图像任务分为两类:

In-domain Evaluation包括我们训练期间“看到”的任务,旨在验证熟悉场景中的模型性能。我们采用与训练数据集相对应的 5 个新策划的多图像任务,以及 2 个现有基准 QBench [56] 和 NLVR2 [50],总共有 12.9K。

Out-domain Evaluation涉及与训练场景不重叠的任务,旨在揭示 LMM 的泛化能力。我们为多图像数学 (MathVerse [65]) 和科学 (SciVerse [13]) 理解构建了 2 个新任务,并利用 3 个现有基准 Mantis-Eval [19]、BLINK [10] 和 MMMU [60],总共 4.1K。

Interleaved Visual Instruction Tuning

在本节中,我们在 LlaVANeXT-Interleave 的交错视觉指令调整期间引入了几个关键技术。对于架构设计,我们遵循 LLAAVA-NeXT [24] 采用最通用的框架,即视觉编码器 [62]、中间投影仪和强大的 LLM [4]。然后,我们考虑以下三种技术来实现改进的多图像性能。

技术 1:从单个图像模型继续训练。交错的多图像任务可以看作是单图像场景的扩展,格式更灵活,推理具有挑战性。因此,为了更好地利用预训练的单幅图像熟练程度,我们采用现成的LLAVA-NeXT-Image[24]作为基础模型,该模型经过阶段1的图像-字幕预训练和阶段2的单幅图像微调。在该模型之上,我们使用我们的 M4-Instruct 数据集执行交错的多图像指令调整。

技术 2:训练期间的混合交错数据格式。我们对交错多图像训练期间图像标记的位置采用两种格式选择。第一个是将所有图像标记放置在提示前面,同时保持文本中的占位符⟨image⟩,表示为“In-the-front格式”。第二个保留了交错格式,将图像标记放在它们最初所在的位置,即⟨image⟩的位置,表示为“交错格式”。这样,LLAVA-NeXTInterleave 支持更灵活的推理模式,表现出对不同输入格式的鲁棒性。

技术 3:组合不同的数据场景可以提高单个任务的性能。大多数现有的工作仅使用一种类型的数据源进行监督微调,例如Mantis[19]的多幅图像调整和LLaMA-VID[31]的多帧调优。相反,我们利用 M4-Instruct 同时使用四种不同的任务(多图像/帧/视图/补丁)进行指令调整。通过统一的交错格式,不同的数据场景有可能提供互补的语义和指令跟随能力。

Experiments

在第 5.1 节中,我们首先介绍我们的评估方案和实现细节。然后,在第 5.2 节中,我们报告了并分析了四种交错多图像场景中的定量结果。

Settings

评估方案。我们在四个真实世界的交错场景中评估我们的LLAVA-NeXTInterleave模型,即多图像、多帧(视频)、多视图(3D)和多补丁(单图像)。

  • 对于多图像评估,我们采用了提出的LLAVA-Interleave Bench,涵盖了全面的域内和域外任务。
  • 对于视频评估,我们利用现有的NExTQA[57]、MVBench[30]、视频详细描述(VDD)[67]和ActivityNet-QA (Act)[59]。对于 ActivityNet-QA,我们展示了准确性和 GPT 分数(Acc/Score)。我们还使用五个指标来评估 VideoChat-GPT (VCG) [40]:CI(信息的正确性)、DO(细节方向)、CU(上下文理解)、TU(时间理解)和 CO(一致性)。
  • 对于 3D 评估,我们从 3D-LLM [16] 中选择 ScanQA [3],即 3D 辅助对话和任务分解,并且还从 nuScenes VQA [6] 和 ALFRED [48] 策划两个新的测试集。

实施细节。遵循LLAVA-NeXT[24]中的相同架构,我们的LLAVA-NeXT-Interleave采用Qwen 1.5[5]作为基本LLM,参数为0.5B、7B和14B,SigLIP-400M[62],分辨率为384×384,两层MLP作为投影层。

在这里插入图片描述

表1。我们的LLAVA-Interleave Bench的结果。SD: Spot the Difference, IE: Image Edition, VST: Visual Story Telling, TRVQA: Text-rich VQA, MIVQA: Multi-image VQA, QB: Q-Bench, SQ: ScanQA, Math: MathVerse-MV, Sci: SciVerse-mv。

表2。多帧(视频)基准测试的结果。VDD:视频详细说明。CI(信息的正确性)、DO(尾部方向)、CU(上下文理解)、TU(时间理解)和 CO(一致性)。

表3。3D基准测试的结果。3D 辅助对话和任务分解是来自 3D-LLM 的评估任务。

表4。不同LLM大小的多补丁(单图像)基准测试的结果。'Single' 和 'Interleave' 分别表示 LLaVANeXT-Image 和我们的模型。

Main Results

多图像结果。如表 1 所示,LLAVA-NeXT-Interleave 的平均多图像性能在域内和域外基准测试中都超过了以前的开源模型。对于域内评估,由于使用 M4-Instruct 进行多图像指令调整,我们的模型显示出在各种任务中的显着优势。对于域外评估,LLAVA-NeXT-Interleave 还展示了新场景中卓越的泛化能力,例如,与 Mantis-Eval 和 BLINK 上的 GPT-4V 相当。

多帧(视频)结果。与之前的基于视频的LMMs在相似的模型大小下相比,LLaVANeXT-Interleave 在表2的许多基准测试中都取得了优异的结果,尽管不是专门为视频任务设计的。我们还遵循 LLAAVA-Hound 在我们的 M4-Instruct 调整之后添加 DPO 训练。在添加 DPO 之后,我们的 7B 模型在 VDD 和 VideoChatGPT 基准上获得了 SoTA 性能,超过了之前的 LLAVA-NeXTVideo (34B)。这证明了我们的模型在连续帧之间有效的时间理解和推理能力。请注意,我们通过将 10 倍的权重乘以视频详细说明和 VideoChat-GPT 的分数来计算平均分数。

在这里插入图片描述

表5。消融是否继续从单幅图像模型训练。QB:Q-Bench,Act:ActivityNet-QA,MVB:MVBench,VDD:视频详细说明,MME*:在本文中,我们通过总结感知和认知分数并将 2800、SQA:Scienceqa-IMG 划分为准确度。

表6。混合交错数据格式消融。我们在LLAVA-Interleave Bench中选择多个任务进行消融。

表 7. 改进视频任务组合数据场景的消融研究。CI(信息的正确性)、DO(尾部方向)、CU(上下文理解)、TU(时间理解)和 CO(一致性)。

多视图 (3D) 结果。对于表 3 中的 3D 感知,我们的模型在五个域内基准上也获得了室内和室外场景的主要结果。与以附加点云为输入的3D-LLM和Point-LLM相比,LLAVA-NeXT-Interleave只接受多视图图像来解释3D世界,在具有挑战性的3D场景中获得了明显更高的分数。

多补丁(单图像)结果。我们还添加了原始 LlaVA-NeXT 单图像数据 307k (40%),这使得我们的模型能够执行单图像任务。我们对单幅图像数据使用任何res训练,将图像划分为多个patch,形成另一个多图像设置。如表 4 所示,我们保持 LLAVA-NeXT-Image 的单幅图像性能。由于单幅图像数据具有较高的质量和多样性,添加单幅图像数据也提高了指令跟踪能力,使任务从单幅图像转移到多图像,如第6节所示。

Ablations of Proposed Techniques

我们在第 4 节中研究了三种提议的训练技术的有效性,如下所示。

  • 在表 5 中,我们比较了训练策略。可以看出,与直接从 Stage-1 模型检查点(来自 Stage-2)初始化相比,从一个好的单图像模型检查点(来自 Stage-2)初始化可以持续增强交错的多图像性能。
  • 在表 6 中,我们的混合格式训练可以使两种输入格式的结果受益。
  • 在表 7 中,我们在视频数据上逐步合并单个图像和多图像数据。与来自单个视觉场景的模型相比,更多来源的集成有助于提高性能。

Emerging Capabilities

在本节中,我们将展示一些示例来展示我们模型的新兴能力。新功能意味着功能在训练期间没有训练,但在推理时演示。我们主要从三个方面展示了新兴能力:

任务从单幅图像转移到多图像:在单个图像模型[35]中观察到对一幅图像进行推理并判断有趣部分的能力,不包括在我们的多图像训练中。如表 8 所示,我们的模型能够分析多个图像中的有趣部分。这个新任务可能是由单图像能力和多图像 VQA 训练的组合出现的。

任务从图像转移到视频:我们只在 M4-Instruct 训练中包括多图像 Twitter 帖子任务,而我们的模型可以直接从视频中执行抖动帖子,如表 9 所示。这个新任务可能是由多图像 Twitter 帖子和视频 VQA 任务的训练数据组成的。

实际应用:在表 10、11 和 12 中,我们展示了在我们的交错训练数据中没有明确包含的三个真实场景,它们是多图像绘画风格识别、PPT 摘要和 QA,以及多文档 VQA。这证明了我们对更广泛的应用的泛化能力。

Conclusion

总之,我们的研究强调了 LlaVA-NeXT-Interleave 在统一和推进大型多模态模型 (LMM) 在不同视觉任务中的能力方面的变革潜力。通过利用交错数据格式,我们有效地集成了多图像、视频、3D和单图像场景,提供了一种内聚的方法来处理这些不同的挑战。综合M4-Instruct数据集和LLAVA-Interleave Bench的引入为训练和评估LMM提供了坚实的基础,确保了跨多个领域的高质量性能。我们的大量实验表明,LLAVA-NeXT-Interleave 不仅在多图像任务中设置了新的最先进的基准,而且在单图像任务中保持了卓越的性能。此外,该模型表现出有希望的新兴能力,例如跨任务转移,展示了其多功能性和潜在更广泛的应用。这项工作在该领域建立了一个新的先例,为多模态人工智能和复杂视觉理解任务的未来进步铺平了道路。

总结

在llava-next的基础上:

  1. 将不同任务的数据格式统一为interleave的图像-文本格式,使得模型能够处理不同场景中的多种任务,如多图像任务、视频任务和3D任务。
  2. 构造了新的的训练数据集M4-Instruct,包含1177.6k个样本,覆盖了14个任务和41个数据集,支持多图像、视频、3D和单图像任务。
  3. LLAVA-NeXT-Interleave在多图像、视频和3D任务中取得了领先的性能,同时保持了单图像任务的表现。
  4. 通过联合训练多个任务,该模型展示了在不同设置和模式之间任务转移的新能力。
  • 11
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值