LLaVA-OneVision 简单视觉任务转移

Phoenixtree_DongZhao

于 2024-08-08 09:14:59 发布

阅读量673

点赞数 18

分类专栏： Large Model Multimodel Transformer 文章标签：大模型 LLaVA

本文链接：https://blog.csdn.net/u014546828/article/details/141017006

版权

Transformer 同时被 3 个专栏收录

26 篇文章 6 订阅

订阅专栏

Large Model

10 篇文章 0 订阅

订阅专栏

Multimodel

6 篇文章 0 订阅

订阅专栏

LLaVA-OneVision：Easy Visual Task Transfer

主页： LLaVA-OneVision: Easy Visual Task Transfer

代码：GitHub - LLaVA-VL/LLaVA-NeXT

论文：LLaVA-OneVision: Easy Visual Task Transfer

We present LLaVA-OneVision, a family of open large multimodal models (LMMs) developed by consolidating our insights into data, models, and visual representations in the LLaVA-NeXT blog series. Our experimental results demonstrate that LLaVA-OneVision is the first single model that can simultaneously push the performance boundaries of open LMMs in three important computer vision scenarios: single-image, multi-image, and video scenarios. Importantly, the design of LLaVA-OneVision allows strong transfer learning across different modalities/scenarios, yielding new emerging capabilities. In particular, strong video understanding and cross-scenario capabilities are demonstrated through task transfer from images to videos.

文章介绍了LLaVA-OneVision，这是一套开放的大型多模态模型（LMMs），通过整合我们在LLaVA-NeXT博客系列中对数据、模型和视觉表达的见解而开发。我们的实验结果显示，LLaVA-OneVision是第一个能够同时推动三个重要计算机视觉场景（单图像、多图像和视频场景）中开放式LMMs性能边界的独特模型。重要的是，LLaVA-OneVision的设计允许在不同形式/场景之间进行强大的迁移学习，产生新兴能力。特别地，在从图像到视频进行任务转换时展示了出色且跨领域能力强大的视频理解水平。

——————————————————————————

在人工智能领域，构建基于大型多模态模型（LMM）的通用助手是一个核心追求[67]。LLaVA-OneVision是一个开放模型，它继续推进大型视觉与语言助手（LLaVA）的研究[83]，该助手能够遵循多种指令，在复杂环境中完成各种计算机视觉任务。作为一种成本效益高的方案，它通常通过简单的连接模块将视觉编码器与大型语言模型（LLM）连接起来进行开发。

首个LLaVA模型[83]展示了令人印象深刻的多模态聊天能力，有时在首次遇到未见过的图像和指令时，其行为与GPT-4V相似。LLaVA-1.5[81]通过纳入更多与学术相关的指令数据，显著扩展并提升了其能力，以数据高效的方案在数十个基准测试中实现了最先进的性能。LLaVA-NeXT[82]继承了这一特性，并通过三项关键技术进一步推动了性能边界：AnyRes用于处理高分辨率图像、扩展高质量指令数据，以及利用当时可用的最佳开放LLM。

LLaVA-NeXT提供了一个可扩展的原型，促进了在LLaVA-NeXT博客系列[82, 168, 65, 64, 68]中报告的几项并行探索：

LLaVA

• 视频博客[168]显示，仅通过图像训练的LLaVA-NeXT模型在视频任务中表现出惊人的强大能力，实现了零样本模态迁移，这得益于AnyRes的设计，能够将任何视觉信号作为图像序列进行处理。
• 强化博客[65]展示了这种成本效益高的策略在LLM模型扩展方面的成功。通过简单地扩展LLM，它在选定基准测试上的性能可与GPT-4V相媲美。
• 消融博客[64]总结了我们在追求数据扩展成功方面的实证探索，除了视觉指令数据本身外，还包括架构选择（LLM与视觉编码器的扩展）、视觉表示（分辨率与令牌数）以及训练策略（可训练模块与高质量数据）。
• 交错博客[68]描述了在新场景（包括多图像、多帧（视频）和多视图（3D））中扩展和改进能力的策略，同时保持单图像性能。

这些探索在固定的计算预算内进行，旨在在我们推进项目的过程中提供有用的见解，而不是推动性能极限。在此过程中，我们还从1月到6月积累和整理了大量高质量数据集。通过整合这些见解，并在新积累的更大数据集上采用“快速运行”的方式执行实验，我们推出了LLaVA-OneVision。我们使用现有的计算能力实现了新模型，而没有对各个组件进行广泛的风险降低。这为我们按照我们的方案通过额外的数据和模型扩展来进一步提升能力留下了空间。请参阅第A节中的详细开发时间线。特别是，我们的论文做出了以下贡献：

• 大型多模态模型。本文开发了LLaVA-OneVision，这是一系列开放的大型多模态模型（LMM），在三个重要的视觉场景（包括单图像、多图像和视频场景）中提高了开放LMM的性能边界。
• 任务迁移带来的新兴能力。本文在建模和数据表示方面的设计允许在不同场景之间进行任务迁移，提出了一种产生新兴能力的简单方法。特别是，LLaVA-OneVision通过从图像到视频的任务迁移展示了强大的视频理解能力。
• 开源。为了推动构建通用视觉助手的进程，我们向公众发布了以下资源：生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。

Network Architecture

——————————————————————————

[64] Bo Li, Hao Zhang, Kaichen Zhang, Dong Guo, Yuanhan Zhang, Renrui Zhang, Feng Li, Ziwei Liu, and Chunyuan Li.Llava-next: What else influences visual instruction tuning beyond data?, May 2024.
[65] Bo Li, Kaichen Zhang, Hao Zhang, Dong Guo, Renrui Zhang, Feng Li, Yuanhan Zhang, Ziwei Liu, and Chunyuan Li.Llava-next: Stronger llms supercharge multimodal capabilities in the wild, May 2024.
[66] Bohao Li, Rui Wang, Guangzhi Wang, Yuying Ge, Yixiao Ge, and Ying Shan.Seed-bench: Benchmarking multimodal llms with generative comprehension, 2023.
[67] Chunyuan Li, Zhe Gan, Zhengyuan Yang, Jianwei Yang, Linjie Li, Lijuan Wang, Jianfeng Gao, et al.Multimodal foundation models: From specialists to general-purpose assistants.Foundations and Trends® in Computer Graphics and Vision, 2024.
[68] Feng Li, Renrui Zhang, Hao Zhang, Yuanhan Zhang, Bo Li, Wei Li, Zejun Ma, and Chunyuan Li.Llava-next: Tackling multi-image, video, and 3d in large multimodal models, June 2024.
[82] Haotian Liu, Chunyuan Li, Yuheng Li, Bo Li, Yuanhan Zhang, Sheng Shen, and Yong Jae Lee.Llava-next: Improved reasoning, ocr, and world knowledge, January 2024.
[83] Haotian Liu, Chunyuan Li, Qingyang Wu, and Yong Jae Lee.Visual instruction tuning, 2023.
[168] Yuanhan Zhang, Bo Li, haotian Liu, Yong jae Lee, Liangke Gui, Di Fu, Jiashi Feng, Ziwei Liu, and Chunyuan Li.Llava-next: A strong zero-shot video understanding model, April 2024.

Phoenixtree_DongZhao

关注

18
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
LLaVA-OneVision 简单视觉任务转移

文章介绍了LLaVA-OneVision，这是一套开放的大型多模态模型（LMMs），通过整合我们在LLaVA-NeXT博客系列中对数据、模型和视觉表达的见解而开发。我们的实验结果显示，LLaVA-OneVision是第一个能够同时推动三个重要计算机视觉场景（单图像、多图像和视频场景）中开放式LMMs性能边界的独特模型。重要的是，LLaVA-OneVision的设计允许在不同形式/场景之间进行强大的迁移学习，产生新兴能力。特别地，在从图像到视频进行任务转换时展示了出色且跨领域能力强大的视频理解水平。
复制链接

扫一扫

专栏目录