字节提出开放多模态大模型LLaVA-OneVision，轻松玩转视觉任务迁移

最新推荐文章于 2025-03-06 23:41:37 发布

PaperWeekly

最新推荐文章于 2025-03-06 23:41:37 发布

阅读量828

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzIwMTc4ODE0Mw==&mid=2247679368&idx=2&sn=d43bbd02ab626c6627c8f3a8f46a509f&chksm=97fe3e12bb0ab839d2b339074bde973e29a4daef951c3e15ea1d82ae93b771d80d65d348d197&scene=126&sessionid=0

版权

©PaperWeekly 原创 · 作者 | Chunyuan Li

单位 | 字节跳动

研究方向 | 大语言模型

LLaVA-OneVision（OV）

这是一个开放的多模态大模型，不仅在单图像、多图像和视频任务中表现出色，还通过任务迁移轻松解锁新的涌现能力（Emgerging Capabilities）。

论文链接：

https://arxiv.org/abs/2408.03326

Blog链接：

https://llava-vl.github.io/blog/

▲ 在 LLaVA-OneVision 中的视觉表示策略是为每种场景分配相应的视觉令牌（Visual Tokens）数目。不同场景中 Visual Tokens 的最大数量被设计为相似，以确保平衡的视觉表示，从而支持跨场景能力的迁移。

优异表现

LLaVA-OneVision 提升了开源多模态大模型在单图像、多图像和视频任务中的最新性能！提供 0.5B、7B 和 72B 模型规模，可满足从边缘设备到云服务器的多样化性能与成本需求。

▲ LLaVA-OneVision 与当前最先进的商业模型的性能对比

完全开源

公开发布数据、代码、模型、配方和聊天演示。今天就开始构建你自己的通用助手吧！

代码地址：

https://github.com/LLaVA-VL/LLaVA-NeXT

模型地址：

https://huggingface.co/lmms-lab

数据地址：

https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-Data

Demo地址：

https://llava-onevision.lmms-lab.com/https://llava-onevision.lmms-lab.com/

3.1 训练方式

▲ LLaVA-OneVision 模型每个训练阶段的详细配置。在课程学习过程的不同阶段中，视觉参数、数据集特征、模型规格和训练超参数的演变。

3.2 训练数据

阶段-1.5：高质量知识（400万）。99.8% 的数据为合成数据。
阶段-2：视觉指令数据（1）单图像（320万）；（2）OneVision（160万）。

▲ Single-Image (3.2M) in Stage-2: Visual Instruction Data

▲ OneVision (1.6M) in Stage-2: Visual Instruction Data

新兴涌现能力

我们的设计提供了一种简单而强大的跨场景任务转移方法，通过从图像到视频的任务转移展示了最新的状态下的视频理解能力。以下是一些示例。更多有趣的涌现能力请查看论文（https://arxiv.org/abs/2408.03326）。

1.生成视频之间差异/编辑指令

▲ 案例：描述两个视频之间的不同。相同的开始，不同的结尾

▲ 案例：描述两个视频之间的不同。类似的背景，不同的前景

▲ 案例：图片到视频生成的编辑指令

▲ 案例：图片和视频综合理解

2. 标记集提示（Set-of-Mark Prompting）

作为一个开源多模态大模型，LLaVA-OV 不仅在图像中展示了出色的标记集能力（首次由 Jianwei Yang 在 https://arxiv.org/abs/2310.11441 中报告），还将这种能力扩展到了视频领域。

▲ 案例：图片中的标记集提示（SoM）。作为开源模型中， LLaVA-OV 涌现出不错的 SoM 能力

▲ 案例：LLaVA-OV 拓展 SoM 到视频中的标记集提示

3. GUI Agent.

LLaVA-OV 能够在多个 GUI 截图上提供操作步骤，帮助用户在手机上打开 TikTok。

▲ 案例：LLaVA-OV 作为 GUI 代理，可以指导用户在手机上打开 TikTok 应用程序。

开发时间线

LLaVA-OV 整合了 LLaVA-NeXT 系列（2024 年 1 月至 6 月）的见解。在 1 月份的原型基础上，我们进行了多项并行探索，并通过 “yolo run” 实施了 OV 模型，利用现有计算资源不断推进。

查看 LLaVA-NeXT 博客系列：https://llava-vl.github.io/blog

▲ 开发时间线: 从LLaVA-NeXT 到 LLaVA-OneVision

▲ LLaVA-NeXT 系列简介

致谢

LLaVA-OV 的构建得益于强大的开源模型 Qwen2（Junyang Lin 及其团队）和 SigLIP（Xiaohua Zhai，Lucas Beyer 及其团队）。

特别感谢出色的合作伙伴：Bo Li，Yuanhan Zhang，Dong Guo， Feng Li, Renrui Zhang， Hao Zhang， Kaichen Zhang， Ziwei Liu， Chunyuan Li

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧