支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

计算机视觉研究院

于 2024-08-29 11:28:30 发布

阅读量24

点赞数

原文链接：https://mp.weixin.qq.com/s?__biz=MzU0NTAyNTQ1OQ==&mid=2247537684&idx=3&sn=7cf8d561bfb52eaa1b2d95d9c1f0ec8d&chksm=fa1367e480f3ab6daf9eff206a75c88e59a3aa053ac9ef93305b64bca705d1dec169fab97168&scene=126&sessionid=0

版权

点击蓝字

关注我们

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜计算机视觉研究院

学习群｜扫码在主页获取加入方式

论文地址：https://arxiv.org/pdf/2408.10188
代码地址：https://github.com/NVlabs/VILA/blob/main/LongVILA.md
论文标题：LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE MODELS FOR LONG VIDEOS

计算机视觉研究院专栏

Column of Computer Vision Institute

现在，长上下文视觉语言模型（VLM）有了新的全栈解决方案 ——LongVILA，它集系统、模型训练与数据集开发于一体。

与 HuggingFace 的原生 pipeline 并行策略相比，本文的推理模式更加高效，原因在于所有设备同时参与计算，从而与机器数量呈正比地加速进程，具体如下图 6 所示。同时，该推理模式是可扩展的，内存均匀地分布给各个设备，以使用更多机器来支持更长的序列。

该研究通过逐步将序列长度从 1k 增加到 10k 来评估固定数量 GPU 支持的最大序列长度，直到发生内存不足错误。结果总结在图 9 中。

当扩展到 256 个 GPU 时，本文方法可以支持大约 8 倍的上下文长度。此外，所提系统实现了与 ZIGZAG-RINGATTN 类似的上下文长度扩展，在 256 个 GPU 上支持超过 200 万的上下文长度。

表 3 比较了支持的最大序列长度，该研究提出的方法支持的序列比 HuggingFace Pipeline 支持的序列长 2.9 倍。

图 11 展示了长视频大海捞针实验的结果。相比之下，LongVILA 模型（右）在一系列帧数和深度上都表现出了增强的性能。

表 5 列出了各种模型在 Video MME 基准上的表现，比较了它们在短视频、中视频和长视频长度上的有效性以及整体性能。LongVILA-8B 采用 256 帧，总分为 50.5。

研究者还在表 6 对第 3 阶段和第 4 阶段的影响进行了消融研究。

表 7 显示了在不同帧数（8、128 和 256）上训练和评估的 LongVILA 模型的性能指标。随着帧数的增加，模型的性能显著提高。具体来说，平均分数从 2.00 上升到 3.26，突显了模型在更多帧数下生成准确丰富字幕的能力。

END

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

ABOUT

计算机视觉研究院

计算机视觉研究院主要涉及深度学习领域，主要致力于目标检测、目标跟踪、图像分割、OCR、模型量化、模型部署等研究方向。研究院每日分享最新的论文算法新框架，提供论文一键下载，并分享实战项目。研究院主要着重”技术研究“和“实践落地”。研究院会针对不同领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

往期推荐

🔗

计算机视觉研究院

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持1024帧、准确率近100％，英伟达「LongVILA」开始发力长视频

点击蓝字关注我们关注并星标从此不迷路计算机视觉研究院公众号ID｜计算机视觉研究院学习群｜扫码在主页获取加入方式论文地址：https://arxiv.org/pdf/2408.10188代码地址：https://github.com/NVlabs/VILA/blob/main/LongVILA.md论文标题：LONGVILA: SCALING LONG-CONTEXT VISUAL LANGUAGE...
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。