introduction
LLaVA-NeXT通过三个关键技术进一步突破了性能界限:用于处理高分辨率图像的 AnyRes、扩展高质量指令数据以及利用当时可用的最佳开放式 LLM。
Llava-next: A strong zero-shot video understanding model,表明,仅训练图像的LLaVA-NeXT模型在具有零拍摄模态转移的视频任务上表现出惊人的强大,这是由于AnyRes的设计将任何视觉信号消化为一系列图像。
Llava-next: Stronger llms supercharge multimodal capabilities in the wild,展示了这种经济高效策略的 LLM 模型扩展成功。通过简单地扩展 LLM,它在选定的基准上实现了与 GPT-4V 相当的性能。
Llava-next: What else influences visual instruction tuning beyond data?,总结了我们除了视觉指令数据本身之外的实证探索,包括架构的选择(LLM 和视觉编码器的缩放)、视觉表示(分辨率和#tokens)以及训练策略(可训练模块和高-质量数据)以追求数据扩展的成功。
Llava-next: Tackling multi-image, video, and 3d in large multimodal models,描述了在多图像、多帧(视频)和多视图(3D)等新场景中扩展和提高能力的策略,同时保持单图像性能。
贡献:
- 大型多模态模型。我们开发了LLAVA-OneVision,这是一系列开放的大型多模态模型(LMMs),它提高了开放LMM在三个重要的视觉设置中的性能边界,包括单幅图像、多图像和视频场景。
- 带有任务转移的触发能力。我们在建模和数据表示中的设计允许跨不同场景的任务迁移,这表明一种简单的方法可以产生新的伪造能力。特别是,LLAVA-OneVision 通过图像的任务转移展示了强大的视频理解。
- 开源。为了为构建通用视觉助手铺平道路,我们将以下资产发布给公众:生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。
related work
SoTA专有LMM,如GPT-4V[109]、GPT-4o[110]、Gemini[131]和Claude-3.5[3],在诗歌视觉场景中表现出了优异的性能,包括单幅图像、多图像和视频设置。在开放研究界,现有的工作通常分别开发针对每个单独场景量身定制的模型。具体来说,大多数专注于推动单幅图像场景中的性能限制[26,83,172,73,163,35],只有少数最近的论文开始探索多图像场景[70,47]。虽然视频LMM擅长视频理解,但它们通常以牺牲图像性能为代价这样做[72],76]。很难有一个开放模型,在所有三个场景中都报告了出色的性能。LlaVA-OneVision旨在通过在广泛的任务中展示最先进的性能来填补这一差距,并通过跨场景任务迁移和组合展示了有趣的新兴能力。
据我们所知,LLAVA-NeXT-Interleave [68] 是首次尝试在所有三个场景中报告良好的性能,LLAVA-OneVision 继承了其训练配方和数据以提高性能。其他具有卓越潜力的开放LMM包括VILA[77]、InternLMXComposer-2.5[16]。不幸的是,他们的结果没有得到充分的评估和报告;我们在实验中与他们进行了比较。除了构建具有真实性能力的系统外,LLAVAOneVision 还受益于大规模的高质量数据训练,包括模型合成知识和不同指令调优数据的新集合。对于前者,我们继承了[64]中的所有知识学习数据。对于后者,我们的动机是 FLAN [136]、88、144。数据收集过程与 Idefics2 [63] 和 Cambrian-1 [13]3 并发,但我们专注于更小但更精心策划的数据集集合。观察到类似的结论:大量的视觉指令调整数据可以显着提高性能。为了对LMMs设计选择进行全面调查,我们参考了最近的一些研究[51,63,64,104,133,10]。