44、【LLaVA-OneVision】LLaVA-Next 家族大一统!数据集大一统!

在这里插入图片描述

论文:LLaVA-OneVision: Easy Visual Task Transfer

代码:https://github.com/LLaVA-VL/LLaVA-NeXT

出处:字节

时间:2024.08.06

贡献:

  • 本文提出了 LLaVA-OneVision,一个开源的多模态系列模型,同时开源了代码和数据
  • 本文方法在三个重要的视觉任务上都取得了很好的效果:单图、多图、视频场景,且证明了模型在不同场景下的能力是可以迁移到其他场景下的

一、背景

之前很少有多模态模型能同时在单图、多图、视频场景下都取得很好的成绩,所以本文提出的 LLaVA-OneVision 是一个开源多模态模型系列,能够提高上述三个任务的上限

本文花费 6 个月的时间收集整理制作了高质量的数据集,且发现,在不同任务数据集上训练的模型具有迁移到其他任务的能力

二、方法

在这里插入图片描述

  • LLM:Qwen-2
  • Vision encoder:SigLIP
  • projector:2 MLP

2.1 视觉特征表达

视觉特征的表达是 visual encoding 成功的关键,其主要有两个关键点:

  • 图像的分辨率
  • feature token 数量

同时扩大这两个数量会提升效果,尤其是在需要细粒度内容的任务上,为了在效果和效率上取得平衡,作者发现提升分辨率比提升 token 数量来的更有效。并且更推荐使用 AnyRes with pooling 策略,对比如图 2:

在这里插入图片描述

对于 AnyRes 设置切割的 width=a,height=b,即会切割出 axb 个 crop,每个 crop 的分辨率都是一样的

假设每个 crop 会有 T 个 tokens,则总共的 visual token 为 L = ( a × b + 1 ) × T L=(a \times b+1) \times T L=(a×b+1)×T,这里的 1 是原图直接 resize 的,也有 T 个 tokens。

给定一个阈值 τ \tau τ,降低每个 crop 的 token 数量:

在这里插入图片描述

Higher AnyRes 策略可以作为一个灵活的视觉表示框架,适用于多图像和视频表示。性能和成本的最佳配置可以相应调整。如图 3 和 C.1节:

  • 单图像:作者为单图像表示考虑了一个较大的最大空间配置 (a, b),以保持原始图像分辨率而不进行调整。此外,作者有意为每张图像分配大量的视觉令牌,从而形成一个长序列,以有效表示视觉信号。因为与视频相比,多样化指令的高质量训练样本在图像中更多。通过使用模拟视频表示的长序列来表示图像,促进从图像到视频理解的能力转移

  • 多图像:只考虑基础图像分辨率并将其输入视觉编码器以获得特征图,消除了对高分辨率图像进行多次裁剪的需求,从而节省计算资源 [68]。

  • 视频:视频的每一帧被调整到基础图像分辨率,并通过视觉编码器处理以生成特征图。采用双线性插值减少令牌数量,从而通过减少每帧的令牌数量来考虑更多帧。能够在性能和计算成本之间提供了更好的权衡 [168]。

在这里插入图片描述

2.2 数据

High-Quality Knowledge 数据:

作者使用了 3 个重要的方式来获得:

  • 重新标注的详细描述数据:

    • 使用LLaVA-NeXT-34B模型生成新的图像描述(captions)。
    • 涉及的数据集包括COCO118K、BLIP558K和CC3M。
    • 将这些数据集结合起来,总共形成了3.5M个样本。
    • 这是一次简单的自我改进尝试,即用模型的早期版本生成训练数据。
  • 文档 / OCR 数据:

    • 使用UReader数据集中的文本阅读子集,总计100K样本,这些样本通过PDF渲染获取。
    • 结合 SynDOG EN/CN 数据,形成了总计 1.1M 个样本的文档 / OCR 数据。
  • 中文和语言数据:

    • 使用ShareGPT4V图像,并利用Azure API提供的GPT-4V生成了920k条详细中文描述数据,以提升模型的中文能力。
    • 为了平衡模型的语言理解能力,还从Evo-Instruct数据集中收集了143k 个样本。

合成数据的重要性:

  • 大多数高质量知识数据(99.8%)都是合成的。
  • 这是因为在现实世界中收集大规模高质量数据成本高且受版权限制。
  • 合成数据可以轻松扩展,成为一种趋势,因为AI模型变得越来越强大。

SFT 数据:

SFT 数据主要是为了让模型理解指令

数据收集:作者基于三层层次结构对数据进行分类:视觉、指令和响应。

  • 视觉输入:考虑了三种视觉场景,取决于多模态序列中包含的视觉输入,包括单图像、多图像和视频。

  • 语言指令:指令通常以问题的形式出现,定义了处理视觉输入的任务。我们将数据分为五大类:一般问答(General QA)、一般OCR(General OCR)、文档/图表/屏幕(Doc/Chart/Screen)、数学推理(Math Reasoning)和语言(Language)。这些指令定义了训练后的多模态模型(LMM)可以覆盖的技能集。我们使用任务分类来帮助维护和平衡技能分布。

  • 语言响应:答案不仅响应用户请求,还指定了模型行为。它可以大致分为自由形式和固定形式。

自由形式的数据通常由高级模型如GPT-4V/o和Gemini注释,而固定形式的数据来自学术数据集,例如VQAv2、GQA、Visual Genome。对于自由形式的数据,保留原始答案。然而,对于固定形式的数据,会手动审核内容,并对问题和答案格式进行必要的修正。对于多项选择数据、简短答案数据以及特定任务数据(如OCR),遵循LLaVA-1.5的提示策略。这一步对于指导模型在复杂任务中正确平衡问答性能、对话能力和推理技能,以及防止来自不同数据源的潜在冲突。

作者将指令数据分为两组:

  • 一组用于单图像场景
  • 另一组用于所有视觉场景。

这一划分基于我们早期研究 [68, 168] ,这些研究强调了图像模型和视频模型之间的关系:更强大的图像模型可以更好地转移到多图像和视频任务。此外,可用于单图像的训练数据集在数量和质量上都显著高于用于视频和多图像任务的数据集。

  • 单图像数据:由于单图像数据对于多模态能力至关重要,作者专门制作了一个大型的单图像数据集用于模型学习。作者从收集的数据源中选择形成一个平衡的数据集,总计 3.2 million 个样本。单图像数据的总体分布见图4,详细信息和数据收集路线图见附录E.1。

在这里插入图片描述

  • OneVision数据:除了单图像阶段的训练外,作者还使用视频、图像和多图像数据的混合来进一步微调模型。作者引入了总计 1.6 million 个混合数据样本,包括从 llava-1.5 收集的 560k 图像数据、本项目中收集的35万视频,以及80万单图像样本。在这个阶段,不引入新的单图像数据,而是从之前的单图像数据中抽取高质量和平衡部分,数据分布和详细信息见图5,附加信息可在附录E.2中找到。

在这里插入图片描述

数据细节和 prompt:

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、效果

3.1 训练策略

为了使大型语言模型(LLM)具备多模态能力,作者分为三个不同的学习阶段,以便进行消融研究。与大多数现有研究一样,之前的LLaVA模型主要探索单图像指令调优。

作者通过课程学习原则训练模型,在逐步增加难度的训练目标和示例中进行阶段性训练。在固定的计算预算下,这种策略有助于分解训练过程,并生成可在更多实验中重复使用的即时检查点。

  • 阶段1:语言-图像对齐。目标是将视觉特征很好地对齐到LLM的词嵌入空间。
  • 阶段1.5:高质量知识学习。为了在计算效率和向LMM注入新知识之间取得平衡,我们建议考虑用于LMM学习的高质量知识。训练配置与阶段2中的设置相似,确保一致性并使模型能够无缝整合新信息。
  • 阶段2:视觉指令调优。为了教会LMM解决多样化的视觉任务,我们将指令数据组织成不同组,如第4.2节所述。模型按顺序在这些组上进行训练。

具体来说,视觉指令调优过程包括两个阶段:

  • 单图像训练:模型首先在320万个单图像指令上进行训练,结果是一个能够通过单张图像执行多样化指令以完成视觉任务的强大模型。
  • OneVision训练:然后,模型在视频、单图像和多图像数据的混合上进行训练。在这个阶段,模型从单图像场景扩展到多样化场景。它学习按照指令在每个新场景中完成任务,并在不同场景间转移已学知识,从而获得新的突现能力。需要注意的是,提出的后期OneVision训练可能是赋予LMM多图像和视频理解能力最简单且最具成本效益的方法。

训练总结如表1所示。逐步训练模型以处理长序列训练。随着训练进展,最大图像分辨率和视觉令牌数量逐渐增加。在阶段1中,考虑基础图像表示,有729个令牌。在阶段2和3中,AnyRes分别考虑最多5倍和10倍的视觉令牌数量。

关于可训练模块,阶段1仅更新投影器,而后续阶段更新整个模型。视觉编码器的学习率比 LLM 低 5 倍。

在这里插入图片描述

3.2 效果

单图 benchmark:

为了验证单图像任务在现实场景中的性能,在表3中展示了综合的图像基准测试。这些基准测试可以分为三类:

  • 图表、图解和文档理解:作为结构化OCR数据的主要视觉格式,作者在AI2D [54]、ChartQA [101]、DocVQA [103]和InfoVQA [102]基准测试上评估结果。虽然当前的开源模型如InternVL [22]和Cambrian [133]的性能与商业模型相当,但LLaVA-OneVision更进一步,超越了GPT-4V [109]并接近GPT-4o [110]的性能水平。

  • 感知和多学科推理:包括视觉感知场景,作者揭示了模型在更复杂和具有挑战性的推理任务中的潜力。作者采用了感知基准测试,包括MME [150]、MMBench [86]和MMVet [153],以及推理基准测试,如MathVerse [164]、MathVista [90]和MMMU [156]。LLaVA-OneVision在各种基准测试中显著优于GPT-4V,并在MathVista上与GPT-4o相当。

  • 现实世界理解和视觉聊天:在野外作为通用助手评估LMMs是最重要的指标,超越了实验室环境。为了验证在现实场景中的能力,作者使用了几个广泛采用的基准测试,包括RealworldQA [140]、Vibe-Eval [111]、MM-LiveBench [160]和LLaVA-Bench-Wilder [65]。虽然与GPT-4V和GPT-4o相比,本模型还有改进空间,但它在类似参数规模的开源模型中表现出竞争力。模型在MM-LiveBench [160]上表现良好,这是一个针对不断更新的现实互联网内容的基准测试。

多图 benchmark:

作者进一步评估了LLaVA-OneVision在多图像交错设置中的表现,其中用户可以在多个图像之间提出问题。作者对LLaVA-Interleave Bench [68]的各种子任务进行了全面评估,例如找不同 [45]、图像编辑指令 (IEI) [68]、视觉故事讲述 (VST) [40]、富文本VQA (TR-VQA) [85]、多图像VQA (MI-VQA) [117]、Raven拼图 [24]、Q-Bench (QB) [138]和NLVR2 [125]。作者还利用了几个多视角基准测试进行评估,这些基准测试描绘了具有多个视点的3D环境,包括来自3D-LLM [38]的3D对话(3D-Chat)和任务分解(3D-TD)、ScanQA [5]、ALFRED [122]和nuScenes VQA [9]。由于训练数据包含了这些数据集的训练部分,作者将这些数据集称为域内评估。

此外,作者还对不同的域外任务进行了评估,以揭示其方法的泛化能力。这些任务包括数学问答基准MathVerse [164]和科学问答基准SciVerse [34]的多图像部分、多图像感知基准BLINK [31]、包含所有多图像问答的MMMU-(multi-image) [156],以及涵盖12个不同多图像任务的MuirBench [135]。

如表4所示,LLaVA-OneVision (SI)在所有基准测试中持续优于现有的多图像LMMs。在对多图像和视频数据进行额外调优后,LLaVA-OneVision在特定领域显著超越了GPT-4V,且差距明显。这突显了其在复杂任务中的强大性能,如多图像推理、识别差异和理解3D环境。此外,作者观察到在OneVision训练阶段之后性能持续提升,这在单图像数据中不存在的多视角基准测试上更加明显。这证明了OneVision范式对于赋予LMMs全面视觉能力的重要性。

视频 benchmark:

视频也是构建世界模型的一种常见模态,能够捕捉现实世界随时间变化的动态特性。作者在多个开放式和多选视频基准测试上进行了实验。这些基准测试包括从ActivityNet数据集中提取的人类注释的动作相关问答对的ActivityNet-QA [154],专注于长视频理解的EgoSchema [98]和MLVU [169],旨在评估感知技能的PerceptionTest [115],包含多样化视频领域和时长(从几分钟到数小时)的VideoMME [29]和NeXTQA [141],用于视频详细描述的VideoDetailCaption [87]以及用于视觉聊天的Video-ChatGPT [96]。

如表5所示,LLaVA-OneVision在多个基准测试中取得了与之前使用更大规模LLM的开源模型相当或更好的结果。LLaVA-OneVision的优越性在复杂基准测试如EgoSchema和VideoMME中尤为明显。即使与先进的商业模型GPT-4V相比,LLaVA-OneVision在ActivityNet-QA、MLVU和VideoMME基准测试中的表现也具有竞争力。

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

  • 8
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

呆呆的猫

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值