【CVPR2024】MA-LMM: 内存增强的大型多模态模型,用于长期视频理解

61331780352c77079bea076dfb9f47e7.png

来源:专知
本文为论文介绍,建议阅读5分钟我们提出一种在线处理视频的方法,而不是像大多数现有工作那样尝试同时处理更多帧,并在内存库中存储过去的视频信息。

ab03a9c4c894bd97704d8899adc7cc70.png

随着大型语言模型(LLMs)的成功,将视觉模型整合到LLMs中以构建视觉-语言基础模型近来引起了更多的关注。然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA,VideoChat)只能处理有限数量的帧来理解短视频。在这项研究中,我们主要关注设计一个高效且有效的模型用于长期视频理解。我们提出一种在线处理视频的方法,而不是像大多数现有工作那样尝试同时处理更多帧,并在内存库中存储过去的视频信息。这使得我们的模型能够参考历史视频内容进行长期分析,而不会超出LLMs的上下文长度限制或GPU内存限制。我们的内存库可以以现成的方式无缝集成到当前的多模态LLMs中。我们在各种视频理解任务上进行了广泛的实验,例如长视频理解、视频问题回答和视频字幕制作,我们的模型在多个数据集上都能实现最先进的性能。

6fd74463e4cc1b9781bb61932c70dbc4.png

4e369fe891fe2c85c3b960a39f781f21.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值