论文标题:
MovieChat: From Dense Token to Sparse Memory for Long Video Understanding
MovieChat: 从稠密令牌到稀疏记忆的长视频理解
论文链接:
Self-Distilled Masked Auto-Encoders are Efficient Video Anomaly Detectors论文下载
论文作者:
Enxin Song, Wenhao Chai, Guanhong Wang, Yucheng Zhang, Haoyang Zhou, Feiyang Wu, Haozhe Chi, Xun Guo, Tian Ye, Yanting Zhang, Yan Lu, Jenq-Neng Hwang, Gaoang Wang
内容简介:
这篇论文介绍了一个名为MovieChat的新型视频理解框架,该框架整合了视觉模型和大型语言模型(LLMs),以克服特定预定义视觉任务的局限性。MovieChat通过采用Atkinson-Shiffrin记忆模型,将Transformer中的token作为记忆载体,并结合特别设计的记忆机制,来处理长视频理解任务。
该框架在长视频理解方面取得了最先进的性能,并发布了包含1K长视频和14K手动标注的MovieChat-1K基准测试集,以验证方法的有效性。