多模态大模型：LLaVA-OneVision 轻松实现视觉任务迁移 | 单图、多图和视频理解

最新推荐文章于 2024-08-26 08:00:00 发布

AI程序猿人

最新推荐文章于 2024-08-26 08:00:00 发布

阅读量1k

点赞数 13

文章标签：音视频自然语言处理计算机视觉人工智能大模型训练 ai大模型多模态大模型

本文链接：https://blog.csdn.net/python1222_/article/details/141461694

版权

简介

第一个能够在三个重要的计算机视觉场景**（单图像、多图像和视频场景）**中同时突破开放式 LMM 性能极限的单一模型。 LLaVA-OneVision允许跨不同模式/场景进行强大的迁移学习，从而产生新的能力，是LLaVA-NeXT 的进化版本；通过从图像到视频的任务迁移，展示了强大的视频理解和跨场景能力。

项目主页： https://llava-vl.github.io/blog/2024-08-05-llava-onevision/

引言

使用多模态大模型（LMM）构建通用助手是人工智能（AI）的核心愿望。LLaVA-OneVision 是一个开放模型，它继续推进了构建大型视觉和语言助手（LLaVA）的研究线路，LLaVA 能够遵循多样化的指令来完成各种计算机视觉任务。作为一种成本效益高的方案，它通常通过一个简单的连接模块将视觉编码器与大型语言模型（LLM）相连接进行开发。

首个 LLaVA 模型展示了令人印象深刻的多模态聊天能力，有时在之前未见过的图像和指令上展现出类似于 GPT-4V 的行为。LLaVA-1.5 通过纳入更多的学术相关指令数据，显著扩展和改进了能力，以一种数据高效的方式在数十个基准测试中实现了最先进的性能。LLaVA-NeXT 继承了这一特性，并通过三种关键技术进一步推动了性能边界：AnyRes 用于处理高分辨率图像，扩展高质量的指令数据，以及利用当时可用的最佳开放 LLM。

LLaVA-NeXT 提供了一个可扩展和可扩展的原型，这促进了在 LLaVA-NeXT 博客系列中的几个并行探索，包括Video blog、Stronger blog、Ablation blog和Interleave blog***，它们分别展示了在视频任务上令人惊讶的零样本模态转移能力、通过简单扩展 LLM 实现的性能提升、对数据扩展成功的实证探索，以及在新场景中扩展和改进能力的策略。

从LLaVA-NeXT到LLaVA-OneVision的开发路线图

这些探索在固定的计算预算内进行，旨在在项目进行过程中提供有用的见解，而不是推动性能极限。在此过程中，我们还一直在积累和策划大量高质量的数据集。通过在新累积的更大数据集上执行 “yolo run” 实验，并整合这些见解，介绍了 LLaVA-OneVision。在现有计算资源下实现了新模型，而没有对各个组件进行广泛的风险降低。这为通过额外的数据和模型扩展来进一步提高能力留下了空间。

本文主要贡献：

大型多模态模型。LLaVA-OneVision，这是一个开放的多模态大模型（LMM）系列，它在三个重要的视觉设置中提高了开放 LMM 的性能边界，包括单图像、多图像和视频场景。
通过任务迁移出现的新兴能力。在建模和数据表示方面的设计允许跨不同场景的任务迁移，提出了一种简单的方法来产生新的新兴能力。特别是，LLaVA-OneVision 通过从图像到视频的任务迁移展示了强大的视频理解能力。
开源。为了为构建通用视觉助手铺平道路，本文向公众发布了以下资源：生成的多模态指令数据、代码库、模型检查点以及视觉聊天演示。

方法概述

模型架构

图 1：LLaVA-OneVision 架构。左图：当前模型实例化;右图：LLaVA架构的一般形式，但进行了扩展，以支持更多的视觉信号。

模型架构继承了 LLaVA 系列的简约设计，其主要目标是：(i) 有效利用预训练的 LLM 和视觉模型的能力，以及 (ii) 促进在数据和模型方面的强大扩展行为。网络架构如图 1 所示。

LLM (大型语言模型) 。选择 Qwen-2 作为 LLM fϕ(·)，参数化为 ϕ，因为它提供了各种模型尺寸，并在公开可用的检查点中表现出强大的语言能力。
视觉编码器。考虑使用 SigLIP 作为视觉编码器 gψ(·)，参数化为 ψ，将输入图像 Xv 编码为其视觉特征 Zv = g(Xv)。在实验中考虑了最后一个 Transformer 层之前的网格特征和之后的网格特征。
投影器。考虑使用一个两层 MLP (多层感知机) pθ(·)，参数化为 θ，将图像特征投影到词嵌入空间，产生一系列视觉标记 Hv = p(Zv)。

对于长度为 L 的序列，通过以下方式计算目标答案 Xa 的概率：

视觉表示

视觉信号的表示是视觉编码成功的关键。它与两个因素有关：原始像素空间中的分辨率和特征空间中标记的数量，这导致了视觉输入表示配置（分辨率，#token）。这两个因素的扩展都带来了性能的提升，特别是在需要视觉细节的任务上。为了在性能和成本之间取得平衡，我们观察到分辨率的扩展比标记数量的扩展更有效，并推荐使用带有池化的 AnyRes 策略。比较如图 2 所示。

图 2：视觉表示。上图：具有双线性插值功能的新型 Higher AnyRes 方案，用于处理更高分辨率的图像;下图：原始AnyRes。

图 3：在 LLaVA-OneVision 中为每个场景分配令牌的视觉表示策略。不同场景间视觉令牌的最大数量设计为相似，保证视觉表示均衡，适应跨场景能力转移。请注意，729 是 SigLIP 编码分辨率为 384×384 的视觉输入的 #tokens。

对于 AnyRes，具有宽度 a 和高度 b 的配置，它将图像划分为 a × b 的裁剪，每个裁剪的形状为 (a, b)。每个裁剪具有适合视觉编码器的相同分辨率。假设每个裁剪有 T 个标记，则总视觉标记数为 L = (a × b + 1) × T，其中基础图像在输入到视觉编码器之前进行了调整大小。我们考虑一个阈值 τ，并减少每个裁剪的 #token 数量，必要时使用双线性插值：

定义一组空间配置 (a, b) 来指定裁剪图像的各种方法，从而适应不同分辨率和纵横比的图像。其中选择需要最少数量裁剪的配置。

所提出的 Higher AnyRes 策略可以作为一个灵活的视觉表示框架，适用于多图像和视频表示。 可以根据需要调整性能和成本的最佳配置。在图 3 中说明了配置，在第 C.1 节中进行了详细描述，并提供了以下高层次编码策略：

单图像。 考虑为单图像表示使用一个较大的最大空间配置 (a, b)，以保持原始图像分辨率而不进行调整大小。此外，有意识地为每个图像分配大量视觉标记，从而产生一个长序列，有效地表示视觉信号。这是基于这样的观察：与视频相比，有更多高质量的训练样本具有多样化的指令。通过用长序列表示图像，模仿视频表示，促进从图像到视频理解的更平滑的能力转移。
多图像。 只有基础图像分辨率被考虑并输入到视觉编码器以获得特征图，从而节省了对高分辨率图像进行多裁剪的计算资源。
视频。 视频中的每个帧都被调整到基础图像分辨率，并由视觉编码器处理以生成特征图。采用双线性插值来减少标记数量，允许通过减少每帧的标记来考虑更多的帧。实证证据表明，这在性能和计算成本之间提供了更好的权衡。

这些表示配置旨在在实验中实现固定计算预算下的能力转移。随着计算资源的增加，在训练和推理阶段可以增加每个图像或帧的标记数量，以提高性能。

数据

本工作将指令数据分为两组：一组用于单图像场景，另一组用于所有视觉场景。这种划分基于早期研究的见解，这些研究强调了图像和视频模型之间的关系：更强大的图像模型可以更好地转移到多图像和视频任务。 此外，可用于单图像的训练数据集的数量和质量明显高于用于视频和多图像任务的训练数据集。

单图像数据。 由于单图像数据对于多模态能力至关重要，因此明确编译了一个大型单图像数据集用于模型学习。从收集的数据源中进行选择，形成一个平衡的集合，总共产生 320 万个样本。单幅图像数据的整体分布如图4所示：

图 4：单张图像 3.2M。高质量的单图像数据集集合。左图：每个类别内的数据分布。外圈显示所有数据类别的分布，内圈显示数据子集的分布。右图：数据集的详细数量。

OneVision 数据。 除了单图像阶段训练外，还使用视频、图像和多图像数据的混合来进一步微调模型。总共引入160万个混合数据样本，包括来自的560K多图像数据，本项目收集的350K视频和800K单图像样本。值得注意的是，在这个阶段，没有引入新的单图像数据，而是从以前的单图像数据中抽取高质量和平衡的部分。数据分布和详细信息如图5所示：

图 5：OneVision 1.6M。高质量的单图像、多图像和视频数据集集合。左图：每个类别内的数据分布。外圈显示所有数据类别的分布，内圈显示数据子集的分布。右图：数据集的详细数量。“MI”是指DEMON提出的多图像版本数据集。

训练策略

为了实现LLM多模态能力，本工作确定了三个关键功能，并将它们系统地划分为三个不同的学习阶段，以便进行消融研究。与大多数现有研究一样，先前的LLaVA模型主要探索单图像指令调优。然而，其他部分的研究较少，因此构成了本节的主要重点。

表 1：LLaVA-OneVision 模型每个训练阶段的详细配置。****该表概述了视觉参数、数据集特征、模型规格和训练超参数在课程学习过程的不同阶段的进展情况。对于 0.5B 模型，使用 512 的全局批量大小，对于 7B 和 72B 模型，使用 256 的全局批量大小。

阶段 1：语言-图像对齐。 目标是将视觉特征很好地对齐到的LLMs词嵌入空间中。
阶段-1.5：高质量的知识学习。 为了在计算效率和向 LMM 注入新知识之间取得平衡，建议考虑使用 LMM 学习的高质量知识。训练配置反映了 Stage-2 中使用的设置，确保了一致性并允许模型无缝集成新信息。
阶段-2：视觉指令调整。 为了教 LMM 以首选的响应方式解决一组不同的视觉任务，将指令数据组织成不同的组。该模型计划按顺序在这些组上进行训练。

具体来说，视觉指令调优过程包括两个阶段：(i)单图像训练： 该模型首先在 320 万条单图像指令上进行训练，从而产生一个模型在遵循一组不同的指令以使用单个图像完成视觉任务方面具有很强的性能。(i⁢i)OneVision 训练： 在视频、单图像和多图像数据的混合上训练模型。在此阶段，模型将其能力从单一图像场景扩展到多样化场景。它学习按照指示在每个新场景中完成任务，并将学到的知识转移到不同的场景中，从而产生新的紧急能力。请注意，在训练后阶段提出的OneVision训练可能是使LMM具有多图像和视频理解能力的最简单且最具成本效益的方法。

表1总结了训练策略。逐步训练模型以处理长序列训练。随着训练的进行，最大图像分辨率和视觉标记的数量会逐渐增加。在 Stage-1 中，考虑使用 729 个令牌来表示基础图像。在第 2 阶段和第 3 阶段，AnyRes 被认为分别具有多达 5 倍和 10 倍的视觉令牌。关于可训练模块，Stage-1 仅更新投影机，而后续阶段更新完整模型。还值得注意的是，视觉编码器的学习率比 LLM 的学习率小 5 倍。