论文标题
VTimeLLM: Empower LLM to Grasp Video Moments
VTimeLLM:赋能大语言模型理解视频片段
论文链接:
VTimeLLM: Empower LLM to Grasp Video Moments论文下载
论文作者
Bin Huang, Xin Wang, Hong Chen, Zihan Song, Wenwu Zhu (Tsinghua University)
内容简介
这篇论文提出了一种新型的视频语言模型 VTimeLLM,旨在提高大型语言模型(LLM)对视频中具体事件的细粒度理解和时间边界的感知能力。现有视频语言模型在描述视频时往往只能提供粗略的总结,无法准确捕捉特定事件的起止时间。
VTimeLLM 通过一种新颖的边界感知三阶段训练策略,显著提升了在时间相关视频理解任务中的表现,如时间视频定位和密集视频描述任务。此外,VTimeLLM 在视频对话基准测试中也表现出色,展示了其在跨模态理解和推理方面的优越能力。
关键点
1.问题背景:
现有的视频语言模型在理解视频内容时,无法准确捕捉特定事件的时间边界,导致在细粒度视频理解任务中表现不佳.