字节提出开放多模态大模型LLaVA-OneVision,轻松玩转视觉任务迁移

cc079270e43cce665f5e9cc04daf2aa8.gif

©PaperWeekly 原创 · 作者 | Chunyuan Li

单位 | 字节跳动

研究方向 | 大语言模型

85eeddbeedf30b3af12e1458feb634a2.png

LLaVA-OneVision(OV)

这是一个开放的多模态大模型,不仅在单图像、多图像和视频任务中表现出色,还通过任务迁移轻松解锁新的涌现能力(Emgerging Capabilities)。

fc9529221c9bf22745ba3ea566dc3f4d.png

论文链接:

https://arxiv.org/abs/2408.03326

Blog链接:

https://llava-vl.github.io/blog/

cf32488f34e77f2c39d0b24df91a7540.png

▲ 在 LLaVA-OneVision 中的视觉表示策略是为每种场景分配相应的视觉令牌(Visual Tokens)数目。不同场景中 Visual Tokens 的最大数量被设计为相似,以确保平衡的视觉表示,从而支持跨场景能力的迁移。

bebf2d8221a121021c5405fcbf7e7129.png

优异表现

LLaVA-OneVision 提升了开源多模态大模型在单图像、多图像和视频任务中的最新性能!提供 0.5B、7B 和 72B 模型规模,可满足从边缘设备到云服务器的多样化性能与成本需求。

73357b0b4565478b02adc333c5889e0e.png

▲ LLaVA-OneVision 与当前最先进的商业模型的性能对比

a117d016eaed6e242e6871c23bae46d4.png

完全开源 

公开发布数据、代码、模型、配方和聊天演示。今天就开始构建你自己的通用助手吧!

代码地址:

https://github.com/LLaVA-VL/LLaVA-NeXT

模型地址: 

https://huggingface.co/lmms-lab

数据地址:

https://huggingface.co/datasets/lmms-lab/LLaVA-OneVision-Data

Demo地址: 

https://llava-onevision.lmms-lab.com/https://llava-onevision.lmms-lab.com/

3.1 训练方式

6233ef0b287712d3dced52df612a4d50.png

▲ LLaVA-OneVision 模型每个训练阶段的详细配置。在课程学习过程的不同阶段中,视觉参数、数据集特征、模型规格和训练超参数的演变。

3.2 训练数据

  • 阶段-1.5:高质量知识(400万)。99.8% 的数据为合成数据。

  • 阶段-2:视觉指令数据(1)单图像(320万);(2)OneVision(160万)。

fe8a65619206dd8a98234212a73cd684.png

▲ Single-Image (3.2M) in Stage-2: Visual Instruction Data

4203ea1f48415deaf1bced06b00e2bc1.png

▲ OneVision (1.6M) in Stage-2: Visual Instruction Data


49d73c88c030d6072116ca7e00c04fbb.png

新兴涌现能力

我们的设计提供了一种简单而强大的跨场景任务转移方法,通过从图像到视频的任务转移展示了最新的状态下的视频理解能力。以下是一些示例。更多有趣的涌现能力 请查看论文(https://arxiv.org/abs/2408.03326)。 

1.生成视频之间差异/编辑指令

a20e141e4ccde32b786653f4407d716e.png

▲ 案例:描述两个视频之间的不同。相同的开始,不同的结尾

4c49fdd42bf6d46a541f8cff99ddf168.png

▲ 案例:描述两个视频之间的不同。类似的背景,不同的前景

97a93a0c29649589e0b6ad8bb9cee78d.png

▲ 案例:图片到视频生成的编辑指令

60e8f08109a30b415d0d38ed9d42ac07.png

▲ 案例:图片和视频综合理解

2. 标记集提示(Set-of-Mark Prompting)

作为一个开源多模态大模型,LLaVA-OV 不仅在图像中展示了出色的标记集能力(首次由 Jianwei Yang 在 https://arxiv.org/abs/2310.11441 中报告),还将这种能力扩展到了视频领域。

554c9aa6f081daadc4667ce1636012f0.png

▲ 案例:图片中的标记集提示(SoM)。作为开源模型中, LLaVA-OV 涌现出不错的 SoM 能力

916718d914dff279eccbe3a225a8240b.png

▲ 案例:LLaVA-OV 拓展 SoM 到视频中的标记集提示

3. GUI Agent. 

LLaVA-OV 能够在多个 GUI 截图上提供操作步骤,帮助用户在手机上打开 TikTok。

ecfe0a773c56e2778eb7e0ad36faee01.png

▲ 案例:LLaVA-OV 作为 GUI 代理,可以指导用户在手机上打开 TikTok 应用程序。

7add3a8e0435a57e2d1778bb63e2931d.png

开发时间线

LLaVA-OV 整合了 LLaVA-NeXT 系列(2024 年 1 月至 6 月)的见解。在 1 月份的原型基础上,我们进行了多项并行探索,并通过 “yolo run” 实施了 OV 模型,利用现有计算资源不断推进。

查看 LLaVA-NeXT 博客系列:https://llava-vl.github.io/blog

9f7c5ed86fbbdba9a1365f0f9acdb61c.png

▲ 开发时间线: 从LLaVA-NeXT 到 LLaVA-OneVision

70edb58af06c7f42130c093926db52ce.png

▲ LLaVA-NeXT 系列简介

623dc58f34bc0af365aceb9b5f83b104.png

致谢

LLaVA-OV 的构建得益于强大的开源模型 Qwen2(Junyang Lin 及其团队)和 SigLIP(Xiaohua Zhai,Lucas Beyer 及其团队)。 

特别感谢出色的合作伙伴:Bo Li,Yuanhan Zhang,Dong Guo, Feng Li, Renrui Zhang, Hao Zhang, Kaichen Zhang, Ziwei Liu, Chunyuan Li

更多阅读

3274e8eea2ac5eef14d6bdbee189356d.png

2faee223ab3cd04214c94f927dc45fc5.png

5a6909ceed3189be4993439e514e3e40.png

3e03c05dc459d8d0844672e5671bfcda.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

bfd0b2e5dc2b2b1c52597afd056cb7b2.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

7b6323dd9b698120173118c17b7063bc.jpeg

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值