CV-VIDEO经典论文解读|MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

论文标题:

MovieChat: From Dense Token to Sparse Memory for Long Video Understanding

MovieChat: 从稠密令牌到稀疏记忆的长视频理解

论文链接:

Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors论文下载

论文作者:

Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng Hwang, Gaoang Wang

内容简介:

这篇论文介绍了一个名为MovieChat的新型视频理解框架,该框架整合了视觉模型和大型语言模型(LLMs),以克服特定预定义视觉任务的局限性。MovieChat通过采用Atkinson-Shiffrin记忆模型,将Transformer中的token作为记忆载体,并结合特别设计的记忆机制,来处理长视频理解任务。

该框架在长视频理解方面取得了最先进的性能,并发布了包含1K长视频和14K手动标注的MovieChat-1K基准测试集,以验证方法的有效性。

关键点:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值