智源联合多所高校推出首个多任务长视频评测基准MLVU

智源研究院官方账号

已于 2024-06-18 14:04:57 修改

阅读量1.1k

点赞数 11

文章标签：人工智能

于 2024-06-18 13:51:12 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/eagleofstar/article/details/139771028

版权

当前，研究社区亟需全面可靠的长视频理解评估基准，以解决现有视频理解评测基准在视频长度不足、类型和任务单一等方面的局限性。因此，智源联合北邮、北大和浙大等多所高校提出首个多任务长视频理解评测基准MLVU（A Comprehensive Benchmark for Multi-Task Long Video Understanding）。MLVU拥有充足且灵活可变的的视频长度、包含多种长视频来源、涵盖多个不同维度的长视频理解任务。通过对20个最新的流行多模态大模型（MLLM）评测发现，排名第一的GPT-4o的单选正确率不足65%，揭示了现有模型在长视频理解任务上仍然面临重大挑战。我们的实证研究还探讨了多个影响大模型长视频理解能力的关键因素，期待MLVU能够推动社区对长视频理解研究的发展。

论文标题：MLVU: A Comprehensive Benchmark for Multi-Task Long Video Understanding

论文链接：https://arxiv.org/abs/2406.04264

项目链接：https://github.com/FlagOpen/FlagEmbedding/tree/master/MLVU

背景介绍

使用MLLM进行长视频理解具有极大的研究和应用前景。然而，当前研究社区仍然缺乏全面和有效的长视频评测基准，它们主要存在以下问题：

1、视频时长不足：当前流行的 Video Benchmark[1,2,3] 主要针对短视频设计，大部分视频的长度都在1分钟以内。

2、视频种类和任务类型不足：现有评测基准往往专注在特定领域的视频（例如电影[4, 5]，第一视角[6]）和特定的视频评测任务（例如Captioning[2]，Temporal Perception[7]，Action Understanding[8]）

3、缺乏合理的长视频理解任务设计：现有部分长视频理解评测任务往往只和局部帧有关[4]；或者使用针对经典电影进行问答[9]，MLLMs 可以直接凭借 text prompt 正确回答问题而不需对视频进行分析。

MLVU的构建过程

针对以上不足，我们提出了MLVU：首个全面

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。