支持1024帧、准确率近100%,英伟达「LongVILA」开始发力长视频

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

8ecaf1d22428aae7bf027fbbe72469e2.gif

20dff77fdaaa2280010b4b0ce2ed2fdb.gif

公众号ID计算机视觉研究院

学习群扫码在主页获取加入方式

dbceae6b1f11f59c927e723c6fbbfaef.png

  • 论文地址:https://arxiv.org/pdf/2408.10188

  • 代码地址:https://github.com/NVlabs/VILA/blob/main/LongVILA.md

  • 论文标题:LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS

计算机视觉研究院专栏

Column of Computer Vision Institute

现在,长上下文视觉语言模型(VLM)有了新的全栈解决方案 ——LongVILA,它集系统、模型训练与数据集开发于一体。

a5990e3b664aa89e200c425bcf421465.gif

61dc62ec48e576798bc6cb2f2273dd88.png

3acaa5af99583743ab5734e5b9ecdd7c.png

43f8729726120f582765039612af1cbc.png

338fbe1fb4ea5d74a92a16875e3178af.png

2f99fb0d268ca147726a54768b820b7c.png

1d70aed309aacd79b859517c9b97ec67.png

e6937ca0f223a79807f45d396d2af4b6.png

与 HuggingFace 的原生 pipeline 并行策略相比,本文的推理模式更加高效,原因在于所有设备同时参与计算,从而与机器数量呈正比地加速进程,具体如下图 6 所示。同时,该推理模式是可扩展的,内存均匀地分布给各个设备,以使用更多机器来支持更长的序列。

b23c569b344444271d1211fa3fc66323.png

370c22a13a9a745886653b45d3b2ace3.png

2bbd65f8af34944f146ce62d5080f542.png

该研究通过逐步将序列长度从 1k 增加到 10k 来评估固定数量 GPU 支持的最大序列长度,直到发生内存不足错误。结果总结在图 9 中。

当扩展到 256 个 GPU 时,本文方法可以支持大约 8 倍的上下文长度。此外,所提系统实现了与 ZIGZAG-RINGATTN 类似的上下文长度扩展,在 256 个 GPU 上支持超过 200 万的上下文长度。

aae66f91611b03f6f75fa6da0c9d800c.png

表 3 比较了支持的最大序列长度,该研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列长 2.9 倍。

2ef18a8bf847d1f0b4590e7c259bda17.png

图 11 展示了长视频大海捞针实验的结果。相比之下,LongVILA 模型(右)在一系列帧数和深度上都表现出了增强的性能。

14b9c1a17252aaf41b5729b99b8220f6.png

表 5 列出了各种模型在 Video MME 基准上的表现,比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧,总分为 50.5。

cb37f0390c88b257dd9e9603ee950d05.png

研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行了消融研究。

0aad0ddae94c606e0b30581d9a89291d.png

表 7 显示了在不同帧数(8、128 和 256)上训练和评估的 LongVILA 模型的性能指标。随着帧数的增加,模型的性能显著提高。具体来说,平均分数从 2.00 上升到 3.26, 突显了模型在更多帧数下生成准确丰富字幕的能力。

28ad5d73a93e2a0e547368543d7d537e.gif

END

86952a9292dc440d36dbb7b24010294f.gif

09d1d0b2ec4f25aefa91beb3de87c1b1.gif

转载请联系本公众号获得授权

5b3b3809040d4f7783a763a3438d0746.gif

计算机视觉研究院学习群等你加入!

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域,主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架,提供论文一键下载,并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程,让大家真正体会摆脱理论的真实场景,培养爱动手编程爱动脑思考的习惯!

0b803ba0dc475250ffeab87c672074e4.png

 往期推荐 

🔗

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值