LLaVA-OneVision: Easy Visual Task Transfer

YungJZ

已于 2024-08-21 10:35:17 修改

阅读量1k

点赞数 20

分类专栏：论文总结文章标签：大模型 llava 多模态任务转移

于 2024-08-20 10:49:33 首次发布

本文链接：https://blog.csdn.net/qq_44537267/article/details/141352219

版权

introduction

LLaVA-NeXT通过三个关键技术进一步突破了性能界限：用于处理高分辨率图像的 AnyRes、扩展高质量指令数据以及利用当时可用的最佳开放式 LLM。

Llava-next: A strong zero-shot video understanding model，表明，仅训练图像的LLaVA-NeXT模型在具有零拍摄模态转移的视频任务上表现出惊人的强大，这是由于AnyRes的设计将任何视觉信号消化为一系列图像。

Llava-next: Stronger llms supercharge multimodal capabilities in the wild，展示了这种经济高效策略的 LLM 模型扩展成功。通过简单地扩展 LLM，它在选定的基准上实现了与 GPT-4V 相当的性能。

Llava-next: What else influences visual instruction tuning beyond data?，总结了我们除了视觉指令数据本身之外的实证探索，包括架构的选择（LLM 和视觉编码器的缩放）、视觉表示（分辨率和#tokens）以及训练策略（可训练模块和高-质量数据）以追求数据扩展的成功。

Llava-next: Tackling multi-image, video, and 3d in large multimodal models，描述了在多图像、多帧（视频）和多视图（3D）等新场景中扩展和提高能力的策略，同时保持单图像性能。

贡献：

大型多模态模型。我们开发了LLAVA-OneVision，这是一系列开放的大型多模态模型(LMMs)，它提高了开放LMM在三个重要的视觉设置中的性能边界，包括单幅图像、多图像和视频场景。
带有任务转移的触发能力。我们在建模和数据表示中的设计允许跨不同场景的任务迁移，这表明一种简单的方法可以产生新的伪造能力。特别是，LLAVA-OneVision 通过图像的任务转移展示了强大的视频理解。
开源。为了为构建通用视觉助手铺平道路，我们将以下资产发布给公众：生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。

related work

SoTA专有LMM，如GPT-4V[109]、GPT-4o[110]、Gemini[131]和Claude-3.5[3]，在诗歌视觉场景中表现出了优异的性能，包括单幅图像、多图像和视频设置。在开放研究界，现有的工作通常分别开发针对每个单独场景量身定制的模型。具体来说，大多数专注于推动单幅图像场景中的性能限制[26,83,172,73,163,35]，只有少数最近的论文开始探索多图像场景[70,47]。虽然视频LMM擅长视频理解，但它们通常以牺牲图像性能为代价这样做[72]，76]。很难有一个开放模型，在所有三个场景中都报告了出色的性能。LlaVA-OneVision旨在通过在广泛的任务中展示最先进的性能来填补这一差距，并通过跨场景任务迁移和组合展示了有趣的新兴能力。

据我们所知，LLAVA-NeXT-Interleave [68] 是首次尝试在所有三个场景中报告良好的性能，LLAVA-OneVision 继承了其训练配方和数据以提高性能。其他具有卓越潜力的开放LMM包括VILA[77]、InternLMXComposer-2.5[16]。不幸的是，他们的结果没有得到充分的评估和报告；我们在实验中与他们进行了比较。除了构建具有真实性能力的系统外，LLAVAOneVision 还受益于大规模的高质量数据训练，包括模型合成知识和不同指令调优数据的新集合。对于前者，我们继承了[64]中的所有知识学习数据。对于后者，我们的动机是 FLAN [136]、88、144。数据收集过程与 Idefics2 [63] 和 Cambrian-1 [13]3 并发，但我们专注于更小但更精心策划的数据集集合。观察到类似的结论：大量的视觉指令调整数据可以显着提高性能。为了对LMMs设计选择进行全面调查，我们参考了最近的一些研究[51,63,64,104,133,10]。

modeling

Network Architecture

最低0.47元/天解锁文章