论文标题
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding
论文链接:
TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding论文下载
论文作者
Shuhuai Ren, Linli Yao, Shicheng Li, Xu Sun, Lu Hou
内容简介
这篇论文提出了一个名为TimeChat的时间敏感型多模态大型语言模型,专门设计用于理解和处理长视频。TimeChat通过结合视觉内容和时间戳信息,能够在长视频中准确地定位关键事件,并生成简洁的总结。模型在多个视频理解任务上表现出色,如密集视频描述、时间定位和高光时刻检测,与现有的视频大型语言模型相比,在零样本设置下性能显著提升。
内容分点
1.时间感知帧编码器:
- 该模块使用预训练的图像编码器(如ViT)对每一帧进行编码,然后通过图像Q-Former进一步压缩帧令牌。
- 在提取视觉令牌的过程中&#