论文标题
Slot-VLM: Object-Event Slots for Video-Language Modeling 用于视频语言建模的物体-事件槽位
论文链接
Slot-VLM: Object-Event Slots for Video-Language Modeling论文下载
论文作者
Jiaqi Xu, Cuiling Lan, Wenxuan Xie, Xuejin Chen, Yan Lu
内容简介
本文提出了Slot-VLM,一个新框架,旨在通过生成语义分解的视频标记来促进大型语言模型(LLM)的推理。Slot-VLM引入了一个对象-事件槽模块(OE-Slots),该模块自适应地将来自视觉编码器的密集视频标记聚合为一组代表性槽位。OE-Slots模块包含两个分支:对象槽分支和事件槽分支,分别关注空间对象和时间动态。对象槽分支从高空间分辨率但低帧率的特征中提取对象中心槽,而事件槽分支则从高帧率但低空间分辨率的特征中提取事件中心槽。这些互补的槽位被组合成视觉上下文,作为LLM的输入,以实现有效的视频推理。实验结果表明,Slot-VLM在视频问答任务中达到了最先进的性能,展示了其在视频语言建模中的有效性。
分点关键点
-
Slot-VLM框架