LLaVA-OneVision: Easy Visual Task Transfer

introduction

LLaVA-NeXT通过三个关键技术进一步突破了性能界限:用于处理高分辨率图像的 AnyRes、扩展高质量指令数据以及利用当时可用的最佳开放式 LLM。

Llava-next: A strong zero-shot video understanding model,表明,仅训练图像的LLaVA-NeXT模型在具有零拍摄模态转移的视频任务上表现出惊人的强大,这是由于AnyRes的设计将任何视觉信号消化为一系列图像。

Llava-next: Stronger llms supercharge multimodal capabilities in the wild,展示了这种经济高效策略的 LLM 模型扩展成功。通过简单地扩展 LLM,它在选定的基准上实现了与 GPT-4V 相当的性能。

Llava-next: What else influences visual instruction tuning beyond data?,总结了我们除了视觉指令数据本身之外的实证探索,包括架构的选择(LLM 和视觉编码器的缩放)、视觉表示(分辨率和#tokens)以及训练策略(可训练模块和高-质量数据)以追求数据扩展的成功。

Llava-next: Tackling multi-image, video, and 3d in large multimodal models,描述了在多图像、多帧(视频)和多视图(3D)等新场景中扩展和提高能力的策略,同时保持单图像性能。

贡献:

  • 大型多模态模型。我们开发了LLAVA-OneVision,这是一系列开放的大型多模态模型(LMMs),它提高了开放LMM在三个重要的视觉设置中的性能边界,包括单幅图像、多图像和视频场景。
  • 带有任务转移的触发能力。我们在建模和数据表示中的设计允许跨不同场景的任务迁移,这表明一种简单的方法可以产生新的伪造能力。特别是,LLAVA-OneVision 通过图像的任务转移展示了强大的视频理解。
  • 开源。为了为构建通用视觉助手铺平道路,我们将以下资产发布给公众:生成的多模态指令数据、代码库、模型检查点和视觉聊天演示。

related work

SoTA专有LMM,如GPT-4V[109]、GPT-4o[110]、Gemini[131]和Claude-3.5[3],在诗歌视觉场景中表现出了优异的性能,包括单幅图像、多图像和视频设置。在开放研究界,现有的工作通常分别开发针对每个单独场景量身定制的模型。具体来说,大多数专注于推动单幅图像场景中的性能限制[26,83,172,73,163,35],只有少数最近的论文开始探索多图像场景[70,47]。虽然视频LMM擅长视频理解,但它们通常以牺牲图像性能为代价这样做[72],76]。很难有一个开放模型,在所有三个场景中都报告了出色的性能。LlaVA-OneVision旨在通过在广泛的任务中展示最先进的性能来填补这一差距,并通过跨场景任务迁移和组合展示了有趣的新兴能力。

据我们所知,LLAVA-NeXT-Interleave [68] 是首次尝试在所有三个场景中报告良好的性能,LLAVA-OneVision 继承了其训练配方和数据以提高性能。其他具有卓越潜力的开放LMM包括VILA[77]、InternLMXComposer-2.5[16]。不幸的是,他们的结果没有得到充分的评估和报告;我们在实验中与他们进行了比较。除了构建具有真实性能力的系统外,LLAVAOneVision 还受益于大规模的高质量数据训练,包括模型合成知识和不同指令调优数据的新集合。对于前者,我们继承了[64]中的所有知识学习数据。对于后者,我们的动机是 FLAN [136]、88、144。数据收集过程与 Idefics2 [63] 和 Cambrian-1 [13]3 并发,但我们专注于更小但更精心策划的数据集集合。观察到类似的结论:大量的视觉指令调整数据可以显着提高性能。为了对LMMs设计选择进行全面调查,我们参考了最近的一些研究[51,63,64,104,133,10]。

modeling

Network Architecture

<think>好的,用户想获取关于如何准备LLaVA-1.1-7B和13B模型权重的官方指导。我需要先回忆一下LLaVA项目的相关信息。根据用户提供的引用[^1],官方文档提到了Model Zoo,里面应该包含所有公开的LLaVA检查点和使用权重的说明。首先,用户需要访问Model Zoo页面,找到对应的模型版本。 接下来,步骤可能包括克隆官方仓库,安装依赖项。用户需要确保环境配置正确,比如Python版本、PyTorch版本以及相关的库如transformers和accelerate。然后,下载预训练的视觉模型和语言模型,可能使用提供的脚本或直接下载链接。 用户可能需要合并视觉和语言模型的权重,这通常需要运行特定的脚本,比如官方提供的转换脚本。例如,使用`python -m llava.model.apply_delta`命令来合并基础语言模型和LLaVA的增量权重。这里要确保路径正确,避免文件找不到的错误。 此外,用户可能会遇到依赖项版本不兼容的问题,需要按照官方指定的版本安装。例如,使用特定版本的torch和transformers库。可能还需要注意CUDA版本是否匹配,以确保GPU加速正常。 最后,验证模型是否加载成功,可以通过运行示例代码或官方提供的测试脚本来检查。如果用户遇到问题,可能需要查阅项目的GitHub Issues或社区讨论,寻找常见问题的解决方案。 用户的需求可能不仅限于准备权重,还可能涉及如何微调模型或使用模型进行推理。因此,生成的相关问题可以包括如何微调LLaVA模型,或者在不同硬件上部署的注意事项,以及如何处理多模态输入等。确保回答准确引用官方文档,并引导用户正确操作,避免常见的配置错误。</think>关于LLaVA-1.1-7B/13B模型权重的准备,请按照以下步骤操作: ### 1. 环境准备 - 克隆官方仓库并安装依赖: ```bash git clone https://github.com/haotian-liu/LLaVA.git cd LLaVA pip install -e . ``` 注意需使用Python ≥3.8,PyTorch ≥2.0和transformers ≥4.31.0 ### 2. 权重下载 - **基础语言模型**: - LLaVA-1.1-7B:下载Vicuna-7B-v1.5权重 - LLaVA-1.1-13B:下载Vicuna-13B-v1.5权重 - **视觉模型**: 使用官方提供的CLIP ViT-L/14-336px视觉编码器 ### 3. 权重合并 使用官方提供的delta权重进行融合: ```bash python -m llava.model.apply_delta \ --base [path/to/vicuna_weights] \ --target [output_directory] \ --delta liuhaotian/llava-v1.1-7b-delta-v0 # 13B则替换为llava-v1.1-13b-delta-v0 ``` ### 4. 验证加载 ```python from llava.model import LlavaLlamaForCausalLM model = LlavaLlamaForCausalLM.from_pretrained("[output_directory]") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值