TimeChat: A Time-sensitive Multimodal Large Language Model for Long Video Understanding
论文信息
paper:CVPR 2024
code:https://github.com/RenShuhuai-Andy/TimeChat
Video LLM时序感知新探索:TimeChat和VTimeLLM
论文概要
- 主要创新:提出一种时间感知的视频多模态大模型,具体来说模型可以根据输入的时间戳来对对应的时间进行描述,也可以根据用户的输入,输出时间戳以及对应的描述。
- 主要技术:1)时间戳感知的帧特征提取器