一种从局部到全局的多模态电影场景分割方法 A Local-to-Global Approach to Multi-modal Movie Scene Segmentation

本文链接：https://blog.csdn.net/qq_39652687/article/details/116403207

研究提出了一种从局部到全局的多模态电影场景分割框架，通过集成多模态信息（如地点、演员、动作和音频）处理电影中的场景。构建了大规模电影场景数据集，包含21K个场景，用于促进场景分割任务。实验表明，该方法在场景分割中表现出色，显著优于现有方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一种从局部到全局的多模态电影场景分割方法

A Local-to-Global Approach to Multi-modal Movie Scene Segmentation

摘要

场景作为电影中讲故事的关键单元，包含了演员在物理环境中的复杂活动及其相互作用。识别场景的构成是理解电影语义的关键一步。这非常具有挑战性——与传统视觉问题(如动作识别)中研究的视频相比，电影中的场景通常包含更丰富的时间结构和更复杂的语义信息。为了实现这个目标，我们通过构建一个大规模的视频数据集来扩大场景分割任务，该数据集包含来自150部电影的21K个带注释的场景片段。我们进一步提出了一个从局部到全局的场景分割框架，它集成了跨三个层次的多模态信息，即剪辑、片段和电影。该框架能够从长电影的层次时间结构中提取复杂的语义，为场景分割提供自上而下的指导。我们的实验表明，该网络能够以高精度将电影分割成场景，始终优于以前的方法。我们还发现，对我们的电影进行预处理可以给现有的方法带来显著的改进。1

1.简介

想象一下，你正在看汤姆·克鲁斯主演的电影《碟中谍》:在一个打斗场景中，伊森跳到一架直升机的着陆滑橇上，在挡风玻璃上粘上一块爆炸的口香糖来消灭敌人。突然，故事跳到了一个激动人心的场景，伊森扣动了扳机，牺牲了自己的生命来救他的妻子朱莉娅。如此戏剧性的场景变化在电影的叙事中起着重要的作用。一般来说，一部电影是由一系列精心设计的有趣的场景和过渡组成的，其中底层的故事情节决定了场景呈现的顺序。因此，识别电影场景，包括场景边界的检测和场景内容的理解，有助于广泛的电影理解任务，如场景分类、跨电影场景检索、人机交互图和以人为本的故事情节构建。

当我们看图(a)中的任何一个镜头时，例如镜头B中的女人，我们不能推断当前的事件是什么。只有当我们考虑到这个场景中的所有镜头1-6，如图(b)所示，我们才能认识到“这个女人在邀请一对情侣和乐队跳舞。”

值得注意的是，场景和镜头本质上是不同的。一般来说，一个镜头是由一个不间断运行一段时间的摄像机拍摄的，因此在视觉上是连续的；而场景是更高级别的语义单元。如图1所示，一个场景由一系列镜头组成，呈现故事语义连贯的部分。因此，尽管可以使用现有工具基于简单的视觉线索将电影容易地划分成镜头[23]，但是识别构成场景的那些镜头子序列的任务是具有挑战性的，因为它需要语义理解，以便发现语义一致但视觉上不同的那些镜头之间的关联。
关于视频理解已经有了广泛的研究。尽管在这一领域取得了很大进展，但大多数现有的工作都集中在从短视频中识别某些活动的类别上[28，6，14]。更重要的是，这些作品假设了一个预先定义的类别列表，这些类别在视觉上是可区分的。但是对于电影场景分割，不可能有这样的类别列表。此外，镜头是根据它们的语义连贯性而不仅仅是视觉线索来分组的。因此，需要为此开发一种新方法。
要把视觉上不同的镜头联系起来，我们需要语义上的理解。这里的关键问题是“没有类别标签怎么学语义？”我们解决这个问题的想法包括三个方面:1)我们不试图对内容进行分类，而是关注场景边界。我们可以通过监督的方式了解场景之间的边界是由什么构成的，从而获得区分场景内和跨场景过渡的能力。2)我们利用包含在多个语义元素中的线索，包括地点、演员、动作和音频，来识别镜头之间的关联。通过整合这些方面，我们可以超越视觉观察，更有效地建立语义联系。3)我们也从对电影的整体理解上探索自上而下的引导，带来进一步的性能提升。

基于这些思想，我们开发了一个从局部到全局的框架，该框架通过三个阶段执行场景分割:1)从多个方面提取镜头表示，2)基于集成的信息进行局部预测，最后3)通过解决全局优化问题来优化镜头的分组。为了促进这项研究，我们构建了一个大规模的数据集，包含超过21K个场景，包含来自150部电影的超过270K个镜头。实验表明，我们的方法比现有的最佳方法提高了68%(平均精度从28.1提高到47.1)。在我们的数据集上预处理的现有方法在性能上也有很大的提高。

2.相关工作

场景边界检测和分割 最早的作品利用了各种无人监管的方法。[22]根据镜头颜色相似性对镜头进行聚类。在[17]中，作者根据低级视觉特征绘制了一条镜头响应曲线，并设置了一个阈值来剪切场景。[4，3]使用具有快速全局k-均值算法的谱聚类的进一步组镜头。[10，24]通过优化预定义的优化目标，用动态规划来预测场景边界。研究人员还求助于其他模态信息，例如，[13]利用带有隐马尔可夫模型的脚本，[23]使用低级视觉和听觉特征来构建场景转换图。这些无监督的方法不灵活，并且严重依赖于为不同的视频手动设置参