摘要:我们介绍了CameraBench,这是一个大规模的数据集和基准,旨在评估和改进对相机运动的了解。 CameraBench由约3000个不同的互联网视频组成,由专家通过严格的多阶段质量控制过程进行注释。 我们的贡献之一是与电影摄影师合作设计的相机运动原语的分类。 例如,我们发现一些动作,如“跟随”(或跟踪),需要理解场景内容,如移动的物体。 我们进行了一项大规模的人类研究,以量化人类注释性能,揭示了领域专业知识和基于教程的培训可以显著提高准确性。 例如,新手可能会将放大(内在变化)与向前平移(外在变化)混淆,但经过训练后可以区分这两者。 使用CameraBench,我们评估了运动结构(SfM)和视频语言模型(VLM),发现SfM模型难以捕捉依赖于场景内容的语义原语,而VLM难以捕捉需要精确估计轨迹的几何原语。 然后,我们在CameraBench上微调生成式VLM,以实现两全其美,并展示其应用,包括运动增强字幕、视频问答和视频文本检索。 我们希望我们的分类、基准和教程将推动未来的努力,以实现理解任何视频中的相机运动的最终目标。Huggingface链接:Paper page,论文链接:2504.15376
研究背景和目的
研究背景
相机运动是视频分析中的一个核心要素,它不仅影响观众对视频内容的感知和理解,还在现代计算机视觉技术中扮演着关键角色。例如,在结构从运动(Structure-from-Motion, SfM)和同步定位与地图构建(Simultaneous Localization and Mapping, SLAM)方法中,首先需要估计相机运动(姿态轨迹)以重建场景。同样,视频语言模型(Video-Language Models, VLMs)在缺乏对相机运动的理解时,也无法充分感知、推理或生成视频动态。尽管人类在理解相机运动方面表现出色,但现有的计算机视觉方法在这方面仍存在显著局限。
经典计算机视觉方法,如SfM和SLAM,主要依赖于从视频序列中估计相机姿态,这些方法在静态场景中表现良好,但在处理动态、真实世界视频时遇到困难,因为它们难以将相机运动与场景动态分离。另一方面,最近的多模态视觉系统,如GPT-4和Gemini,虽然展示了强大的人类般的感知能力,但在捕捉相机运动的几何原语方面仍存在不足。
为了推动对相机运动理解的研究,需要一个大规模、高质量的数据集和基准,以评估和改进现有方法,并促进新算法的开发。然而,现有的数据集在覆盖范围、注释质量和任务多样性方面存在不足,无法满足这一需求。
研究目的
本文旨在通过引入CameraBench,一个大规模的数据集和基准,来评估和改进对相机运动的理解。CameraBench包含约3000个不同的互联网视频,这些视频由专家通过严格的多阶段质量控制过程进行注释。研究的主要目的包括:
- 构建相机运动原语的分类:与电影摄影师合作,设计一个全面且准确的相机运动原语分类,以捕捉各种相机运动。
- 开发高质量的注释框架:建立一个灵活的注释框架,能够处理简单、清晰以及复杂或模棱两可的运动。
- 评估现有方法:使用CameraBench评估现有的SfM、SLAM和VLM方法,揭示它们在理解相机运动方面的优势和局限。
- 提出改进方法:通过微调生成式VLM,结合SfM和VLM的优势,提高相机运动理解的能力,并展示其在运动增强字幕、视频问答和视频文本检索等任务中的应用。
研究方法
数据集构建
-
视频收集:从流媒体平台(如YouTube)手动收集涵盖不同流派(如自然、电影、广告、新闻、电子游戏、抽象艺术、自拍、体育、教程、无人机镜头、工作室制作、表演秀、屏幕录制、vlogs、动漫、动态图形)、类型(如2D、2.5D、3D、合成、真实)、视角(如第一人称、第三人称)、捕捉设备(如智能手机、行车记录仪、GoPro、稳定器、鱼眼镜头)和后期制作效果(如叠加、构图、混合现实元素)的多样视频。
-
注释框架设计:采用“标签+描述”的方法,首先确定相机运动是否清晰一致,如果是,则直接对各个方面进行分类;如果不是,则只回答有信心的问题,留下不确定的问题供后续描述。注释包括运动类型(如不存在、简单、微妙、复杂)、稳定性(如静态、无抖动、轻微抖动、不稳定、非常不稳定)、平移(如向前/向后、向上/向下、向左/向右)、旋转(如向左/向右平移、向上/向下倾斜、顺时针/逆时针滚动)、内在变化(如放大/缩小)、对象中心运动(如弧形运动、跟踪拍摄)等多个方面。
-
质量控制:每个视频至少由5名团队成员进行标注,并通过数月的讨论会议细化标签定义、添加缺失标签,并就初始约800个视频达成共识。开发详细的指南,包括文字定义、视频示例和复杂边缘情况,并为参与者提供讲座和五轮考试,每轮考试包含30个视频,根据反馈生成PDF报告帮助参与者纠正误解。
模型评估
-
分类任务:在相机中心框架内定义的基本运动原语上进行二元分类任务,评估SfM/SLAM和VLM模型的性能。
-
视频问答(VQA)任务:构建约10000个VQA样本,涵盖9个顶级技能和81个子任务,评估模型在对象中心运动、场景动态、稳定性等方面的理解能力。
-
字幕生成和视频文本检索任务:提示VLM模型描述视频中的相机运动,并使用自动化指标(如SPICE、ROUGE-L、BLEU-2、METEOR、LLM-as-a-Judge)评估生成的字幕质量。同时,评估模型在视频文本检索任务上的性能。
研究结果
分类任务结果
-
SfM/SLAM方法:学习基础的SfM/SLAM方法(如MegaSAM)在大多数原语上显著优于经典的COLMAP方法,但所有方法的整体平均精度(AP)仍约为50%,表明没有方法能完全解决此任务。特别是在处理动态主体且背景纹理较少的情况下,SfM/SLAM方法表现不佳。
-
VLM方法:尽管弱于SfM/SLAM方法,但生成式VLM(如GPT-4o)在分类任务上表现出色,显著优于判别式VLM。通过在CameraBench上进行监督微调(SFT),Qwen2.5-VL模型的性能得到了显著提升,匹配了SOTA的MegaSAM模型。
VQA任务结果
- 所有开源的VQA模型在CameraBench上的性能均低于随机猜测水平。然而,经过SFT的Qwen2.5-VL模型在所有技能上均实现了SOTA结果,特别是在需要对象中心推理和逻辑推理的最具挑战性任务上。
字幕生成和视频文本检索任务结果
- 经过SFT的Qwen2.5-VL模型在字幕生成任务上产生了更准确的描述,并且在视频文本检索任务上优于所有基线模型。
研究局限
-
数据集规模:尽管CameraBench是一个大规模数据集,但它仍然无法覆盖所有可能的相机运动模式,特别是互联网视频中的长尾模式。
-
模型性能:尽管经过微调的VLM模型在多个任务上取得了显著进步,但在处理复杂或模棱两可的相机运动时仍存在挑战。
-
预定义提示:研究中使用的预定义提示可能不是最优的,优化这些提示可能会进一步提高模型性能。
-
任务多样性:虽然研究涵盖了分类、VQA、字幕生成和视频文本检索等多种任务,但仍可以扩展到更广泛的视频理解任务。
未来研究方向
-
数据集扩展:继续扩大CameraBench数据集的规模,以覆盖更多样化的相机运动模式和视频类型。
-
模型改进:探索其他后训练方法,以进一步提高模型对相机运动的理解能力。同时,优化预定义提示以提高模型性能。
-
跨模态融合:结合SfM/SLAM和VLM的优势,开发能够同时捕捉几何和语义信息的融合模型。
-
长尾模式学习:识别并学习互联网视频中的长尾相机运动模式,以提高模型的泛化能力。
-
应用拓展:将研究成果应用于更广泛的视频理解任务中,如视频编辑、视频摘要、视频推荐等。
总之,本文通过引入CameraBench数据集和基准,为评估和改进相机运动理解提供了有力工具。未来的研究将进一步推动这一领域的发展,实现理解任何视频中的相机运动的最终目标。