Just Dance with π! A Poly-modal Inductor for Weakly-supervised Video Anomaly Detection-CSDN博客

发布于:CVPR2005

源码：https://github.com/snehashismajhi/PI-VAD(404)

Abstract

视频异常检测（VAD）的弱监督方法传统上仅基于RGB时空特征，这在现实场景中限制了其可靠性。因为RGB特征在区分像商店行窃和视觉上相似的事件类别时，辨识度不够。所以，为实现强大且能处理复杂现实场景的VAD，用额外模态增强RGB时空特征至关重要。基于此，我们引入了用于VAD的多模态诱导框架：“PI - VAD”（或π - VAD），这是一种新颖的方法，通过五种额外模态增强RGB表示。具体而言，这些模态包括对细粒度运动的感知（姿态）、三维场景和实体表示（深度）、周围物体（全景掩码）、全局运动（光流）以及语言线索（VLM）。每个模态就像多边形的一条边，为RGB添加显著线索。 π - VAD包含两个插件模块，即伪模态生成模块和跨模态诱导模块。它们生成特定模态的原型表示，从而将多模态信息融入RGB线索中。这些模块通过执行感知异常的辅助任务来运作，并且仅在训练期间需要五个模态的骨干网络。值得注意的是，π - VAD在包含现实场景的三个主要VAD数据集上达到了最先进的准确率，且在推理时无需五个模态骨干网络带来的计算开销。

图1。a）：复杂现实场景中异常帧及相应多模态显著特征的示意图。光流能捕捉到“虐待”和“逮捕”场景中明显的异常运动，而深度和姿态可以检测到光流可能遗漏的细微动作。全景掩码和文本则提供了整体的场景上下文信息。b）：多模态方法与我们的PI-VAD的对比。PI-VAD仅在训练期间需要五种模态，显著降低了计算量，使其具备了现实应用的可行性。

1. Introduction

弱监督视频异常检测（WSVAD）旨在仅使用视频级别的标签来预测帧级别的异常分数，从而避免了逐帧详细标注的需求。WSVAD方法[5, 23, 26, 31, 39]通过对正常和异常视频进行训练，以提高在各种现实场景中的泛化能力，对于检测大规模场景异常（如爆炸或道路事故）是有效的。然而，它们在处理更复杂的、以人为中心的异常情况（如“商店行窃”、“偷窃”和“虐待”）时往往存在困难，因为这些情况涉及人类互动和微妙的动作。这种局限性源于当前大多数方法依赖单模态（仅视频）特征，而这些特征可能无法完全捕捉这些场景的复杂性。为了在现实场景中改进WSVAD，我们着重引入额外的模态，如姿态、深度、全景掩码、光流和语言语义，以便更细致地表示场景。这些模态提供的额外信息描述了详细的人体运动、实体距离、运动动态和上下文，使得WSVAD在检测复杂异常时更加有效。

尽管多模态语义具有积极意义，但在当前研究中，其在弱监督视频异常检测（WSVAD）中的应用仍有待深入探索。这主要有三个原因：（i）数据有限且监督不足：虽然像CLIP[24]、IMAGEBIND[9]等近期的多模态基础模型进行多模态关联需要超过4亿张图像，但异常检测任务本身处理的数据稀疏且有限（例如，UCF-Crime数据集[26]中只有810个异常视频）。此外，WSVAD中缺乏帧级标签会导致多模态关联不明确；（ii）模态间存在差异：由于每个模态在不同语义层面（即从上下文到细粒度）捕捉独特特征，模态之间存在潜在差异，这给有意义地关联模态带来了额外挑战；（iii）推理开销增加：常见的多模态基础模型在推理时也假定所有模态都可用，因此在框架中线性添加多种模态会显著增加推理开销，阻碍了实时应用。这些挑战引出了我们的主要问题：在数据和监督有限的情况下，如何将多种不同模态与RGB相结合，同时又不牺牲延迟的最佳策略是什么？

受上述问题的启发，我们提出了一种全新的用于弱监督视频异常检测的多模态诱导Transformer，称为PI-VAD（或π-VAD）。与所有WSVAD基准方法不同，π-VAD从姿态、深度、全景分割、光流和语言语义这五种互补模态中合成潜在嵌入，以增强和丰富基于RGB的分析。π-VAD包含两个可无缝集成到WSVAD框架中的新颖插件模块：（i）伪模态生成（PMG）模块；（ii）跨模态诱导（CMI）模块。PMG模块直接从RGB特征生成特定模态的合成原型嵌入，捕捉每个模态的独特特征。这种方法通过避免对单个模态骨干网络的需求，减少了推理延迟，从而保持了π-VAD的运行效率。

跨模态诱导（CMI）模块通过双重对齐过程，在以RGB为锚点的统一嵌入空间中对齐未耦合的模态。最初，它通过对比对齐目标构建每个模态与RGB之间的语义关联，确保多模态嵌入的紧密集成。CMI利用预训练的视频异常检测（VAD）模型，引导对齐后的多模态表示朝着统一的任务感知且对齐的表示方向发展，确保学习到的对齐与异常检测在上下文上相关。这种蒸馏过程为π - VAD注入了细致入微、基于语义的多模态表示，即使在数据和监督有限的情况下，也能实现强大的异常检测。此外，π - VAD的架构有助于在不加剧延迟限制的情况下，可扩展地纳入更多模态。据我们所知，π - VAD是首个在弱监督视频异常检测中充分利用多模态表示的框架，为视频分析中的复杂异常检测树立了新的范例。

总而言之，我们的贡献主要体现在三个方面。

我们提出了π-VAD，这是一种新颖的多模态方法，它利用五种或更多模态，将关键的多模态线索无缝融入RGB线索中，从而增强了弱监督视频异常检测能力。
我们提出了两个插件模块，旨在合成多模态原型并学习与RGB的有效关联。这些模块执行感知异常的辅助任务，以生成并整合有意义的多模态表示。
我们进行了全面的实验分析，以验证π-VAD在UCF-Crime[26]、XD-Violence[31]和MSAD[41]数据集上的稳健性。结果表明，π-VAD的性能优于之前的主流方法。

2. Related Work

弱监督视频异常检测方法[5, 16, 19, 20, 23, 26, 29, 31, 36, 38, 39, 42]依赖于使用视频级别的弱标注数据训练模型，这些标注数据包含正常和异常数据。Sultani等人[26]的奠基性工作引入了一种用于视频异常检测的深度多实例学习（MIL）排序框架。从那以后，人们开发出了许多基于这种方法的改进版本。例如，Tian等人[28]引入了特征幅度学习函数，以更好地识别异常实例。Chen等人[4]提出了一种带有幅度对比损失的特征增强机制，以提高特征的判别能力。Lv等人[18]引入了无偏多实例学习（UMIL）框架，以创建无偏的异常分类器。然而，这些单阶段方法通常专注于高判别性的片段，而忽略了模糊和微妙的片段。为了解决这个问题，最近的研究转向了基于伪标签的两阶段自训练方法[5, 14]，以提高异常分数的准确性。Li等人[14]引入了一种多序列学习技术，通过逐步缩短选定的序列来迭代优化异常分数。然而，这些方法依赖于单模态视频信息，没有纳入相应的多模态数据。最近，跨模态方法开始整合来自多种模态的信息，以提高判别特征和伪标签的准确性，尽管它们主要使用基于文本的异常类别，忽略了异常事件更丰富的语义信息。

多模态视频表征学习利用多种模态，如RGB、深度、文本、音频和姿态等，来创建更丰富的表征。这种方法通常基于两种技术：对比损失和知识蒸馏。对比损失，如在CLIP[24]等模型中使用的那样，通过紧密对齐相似特征，在不同模态之间创建一个共享的嵌入空间。另一方面，知识蒸馏在模态之间传递知识，使得像文本这样的显著模态能够帮助像RGB这样的模态更有效地学习。一些方法，如ViFiCLIP[25]和CoCLR[15]，将对比学习与知识蒸馏相结合，以微调跨模态的对齐方式，同时也提高了跨模态学习的效率。然而，这些技术需要大规模的数据集才能有效地学习多模态表征，而视频异常检测数据集本质上是稀疏且规模较小的。为了在有限的数据条件下利用跨模态信息，我们在训练过程中生成伪模态，并应用对比损失和知识蒸馏从语义上引导共享特征空间。

3. Preliminaries: Uni-modal WSVAD Method

在本节中，我们简要描述现有单模态弱监督视频异常检测（WSVAD）方法的工作原理。单模态WSVAD在训练和推理过程中仅关注RGB模态。首先，将视频V划分为16帧的非重叠片段，得到T个片段。然后，使用预训练的3D卷积网络（例如I3D[1]）从每个片段中提取特征，形成特征图 $F_{RGB} \in \mathbb{R}^{T×D}$ ，其中D是特征维度。给定 $F_{RGB}$ ，单模态WSVAD方法的目标是训练一个RGB任务编码器，该编码器能够在训练期间仅使用视频级标签来预测帧级异常分数。

与标准的单模态弱监督视频异常检测（WSVAD）不同，在这项工作中，我们探索WSVAD任务中的多模态（即两种或更多模态）表征学习能力。我们旨在回答诸如以下问题：需要多少种模态才能表征现实世界中的复杂异常？在数据集和监督有限的情况下，模型是否有可能有效地从超过五种模态中学习，而在推理时仅使用RGB模态？虽然动作理解的多模态方法[6 - 8]可应用于WSVAD任务，但其有效性取决于可用的标注数据量。因此，我们提出了一种新颖的多模态框架，能够在WSVAD任务中有效地将超过五种模态与RGB模态相关联。

4. Proposed π -VAD

在本节中，我们介绍用于弱监督视频异常检测的多模态诱导Transformer，称为π - VAD（如图2所示）。π - VAD采用了包含新型多模态诱导器的师生架构。教师模型和学生模型具有相同的功能架构，其中教师模型在弱监督视频异常检测（WSVAD）任务上进行了预训练，且在训练过程中参数保持固定，而学生模型则是随机初始化的。

在训练过程中，教师模型的权重保持固定。在推理时，学生模型和多模态诱导器独立运行以检测视频中的异常情况。图2. （a）多模态诱导视频异常检测（π-VAD）概述：在训练阶段，π-VAD采用师生方法，其中多模态诱导器通过生成并关联五种不同的模态来增强学生模型的RGB表示。注意模态生成模块（PMG）。然后，这些生成的模态与$F^{*}$相结合，生成增强的特征集$F_{M}$ 以检测异常。（b）多模态诱导器（PI）：PI通过......生成伪模态来优化学生模型的中间特征$F^{*}$

4.1. Poly-modal Inductor (PI)

多模态诱导器（如图2a所示）的目标是，在一个融合的多模态特征空间中，通过促进对异常事件判别特征的学习，来增强学生模型的RGB表征。这由多模态诱导器的两个关键模块来实现：（i）伪模态生成（PMG）模块学习与实际模态组件相关的异常合成近似值；（ii）跨模态诱导（CMI）模块促进PMG生成的多模态编码与学生模型的RGB嵌入之间的语义对齐，同时确保这种对齐与弱监督视频异常检测（WSVAD）相关。如图2b所示，多模态诱导器具有适应性，可以集成到师生架构的各个模块中；不过，我们特意将其放置在初始和最终模块中，以便有效地捕捉低层次和高层次的多模态特征。此外，无论学生模型的具体模块是什么，多模态诱导器都会处理学生模型第i个模块的输出表征$F^{*} \in \mathbb{R}^{T ×D_{i}}$ ，并将经过优化的多模态特征$F_{M}^{*} \in \mathbb{R}^{T ×D_{i}}$ 注入到学生模型的第$i + 1$个模块中，从而增强学生模型学习用于异常检测的判别性表征的能力。

4.2. Pseudo Modality Generation Module

伪模态生成（PMG）模块旨在直接从学生模型的中间RGB特征表示$F^{*} \in \mathbb{R}^{T ×D_{i}}$中，合成姿态（$(\hat{e_{P}} \in \mathbb{R}^{T ×d_{P}})$ ）、深度（$(e_{D} \in \mathbb{R}^{T ×d_{D}})$ ）、全景掩码（$(e_{M} \in \mathbb{R}^{T ×d_{M}})$ ）、光流（$(\hat{e_{O}} \in \mathbb{R}^{T ×d_{O}})$ ）和文本（$(e_{\hat{t} x t} \in \mathbb{R}^{T ×d_{t x t}})$ ）的嵌入。这种方法实现了两个关键目标：（i）消除推理过程中多模态诱导器对多模态骨干网络（例如，SAM、yolov7等）的依赖；（ii）由于多模态嵌入可能会引入冗余、噪声甚至相互冲突的信息，该方法有选择地仅保留对弱监督视频异常检测（WSVAD）任务至关重要的多模态线索。

为了实现这些目标，我们将PMG设计为一种编码器 - 解码器结构。如图2所示，PMG有一个编码器和五个并行的解码器$D_{1}$、$D_{2}$、$\cdots$、$D_{5}$ 。我们特意设置一个编码器来学习所有模态共享的RGB特征。这六个解码器以互斥的方式运作，生成六种模态。编码器有一个一维卷积层，用于将RGB嵌入投影到低维潜在空间。

对于每个模态解码器，单个线性层会将RGB潜在表示转换为特定模态的RGB表示，同时保持潜在空间的维度不变。通过这样做，我们生成了相同RGB嵌入的不同视图，增强了嵌入中与特定模态相关的信息，同时抑制了可能存在的噪声。随后，一个一维卷积层被用作解码器来生成模态嵌入$\hat{e_{j}}$ ，其中$j \in{P, D, M, O, txt}$ 。

训练伪模态生成（PMG）模块需要来自相应模态解码器的真实嵌入$e_{j}$ （其中$j \in \{P, D, M, O, txt\}$ ）。我们利用YOLOV7 - pose [30]、DepthAnythingV2 [33]、SAM [12]、RAFT [27]和VifiCLIP [25]的中间嵌入来表示姿态、深度、全景掩码、光流和文本模态的真实值。PMG的综合训练目标是

一旦伪模态生成模块（PMG）使用$L_{PMG}$进行了训练，它就能够精确地生成伪模态，这些伪模态随后会在多模态诱导器（PI）中被用来增强学生模型的RGB表征。

4.3. Cross Modal Induction Module

在这个阶段，跨模态诱导（CMI）模块将生成的伪模态$\hat{e_{j}}$与RGB嵌入$F^{*}$相结合，旨在创建一个共享的表征空间，以促进与任务相关的所有特征的融合。它将来自伪模态生成（PMG）模块的伪模态与包含当前视频片段$T_{i}$关键视觉信息的RGB嵌入进行对齐。我们的目标是确保对于视频片段$T_{i}$来说最相关的模态，能在一个融合的表征空间中与RGB嵌入趋同，从而加强多模态之间的联系。通过对齐这些不同的模态，PMG模块生成了由RGB数据提供信息的模态嵌入，增强了相关信息并过滤掉了不相关的细节。这种联合表征对于弱监督视频异常检测（WSVAD）任务至关重要，因为它提高了模型有效利用多模态信息的能力。

为了实现这一目标，我们通过应用片段级的双向InfoNCE对比损失函数[22]，来学习每种模态与RGB嵌入之间的共享潜在空间。这种损失函数应用于每个伪模态嵌入$\hat{e_{j}}$（其中$j \in \{P, D, M, O, txt\}$）与RGB嵌入$F^{*}$之间。双向的方法为正样本对和负样本对之间的相似度提供了更平衡的度量方式。由于对比损失是在片段级别应用的，我们将来自同一片段索引$T_{i}$的表征（即$F^{*}(T_{i})$和$\hat{e_{j}}(T_{i})$）视为正样本对，而将来自不同片段的表征视为负样本对。这鼓励正样本对之间具有相似性，而抑制负样本对之间的相似性。嵌入之间的相似度计算如下：$sim(F^{*}(T_{i}), \hat{e_{j}}(T_{i})) = \frac{F^{*}(T_{i}) \cdot \hat{e_{j}}(T_{i})}{\|F^{*}(T_{i})\| \|\hat{e_{j}}(T_{i})\|}$，并且对比对齐损失函数定义为：

接下来，我们旨在通过减少跨模态冲突和噪声，识别出每个视频片段最为相关的模态，并对它们进行优先级排序，从而得到面向任务的多模态嵌入。首先，我们沿着嵌入维度将来自每种模态的已对齐嵌入连接起来。然后，我们使用一组Transformer模块，通过显式编码各模态之间的互相关关系，来突出最相关的模态。此外，我们将来自学生模型的RGB嵌入$F^{*}$添加到Transformer模块之间，以便利用来自多种模态的上下文相关信息来增强RGB表征。

其次，我们引导最后一个Transformer模块输出的最终多模态结果$F_{M}^{*} \in \mathbb{R}^{T \times D_{i}}$，使其成为适用于弱监督视频异常检测（WSVAD）任务的特定表征。这能确保伪模态生成模块（PMG）生成的相关模态所含噪声最小，并且能使显著模态与RGB之间的对齐针对WSVAD任务得到优化，同时将跨模态冲突降至最低。这一目标通过蒸馏过程实现，该过程能最小化$F_{M}^{*}$与教师模型在同一阶段的预训练特征$F_{teach} \in \mathbb{R}^{T \times D_{i}}$之间的差异。引导这一最小化过程的蒸馏损失定义如下：

4.4. π-VAD Optimization

π-VAD分两步进行优化。第一步，分别使用$L_{PMG}$、$L_{align}$和$L_{distill}$对学生模型、伪模态生成（PMG）模块和跨模态诱导（CMI）模块进行预热。这确保了在针对实际任务进行优化之前，所有组件都能得到正确的初始化，从而避免了可能出现的问题，即某一模态会独立地压倒其他模态，而不顾及为RGB嵌入所添加的信息。第一步的损失函数为：

第二步，使用在UR-DMU[40]中所采用的标准多示例学习（MIL）损失函数，在弱监督视频异常检测（WSVAD）任务上对模型进行训练。为了避免已对齐的模态出现解耦的情况，最终的训练目标为：

其中，$\lambda_1$和$\lambda_2$是超参数，它们使我们能够在训练过程中平衡蒸馏和对齐组件所产生的影响。$L_{PMG}$未经过系数调整，以确保在整个训练过程中生成的伪模态始终与真实模态保持相关。

5. Experiments

表1. 弱监督视频异常检测（WSVAD）任务中，在UCF-Crime数据集和XDViolence数据集上与当前最先进方法的比较。最佳结果以粗体显示。

表2. 在MSAD数据集上与当前最先进方法的比较。*表示是我们自己的实现。最佳结果以粗体显示。

图3. 在UCF-Crime数据集上，π - VAD与URDMU[40]按类别划分的曲线下面积（$AUC$）比较。

表3. 对于UCF-Crime数据集，重建、对齐和蒸馏这些辅助任务对主要的视频异常检测（VAD）任务的贡献。

表4. 在训练时所有模态都可用的情况下，针对UCF-Crime数据集，比较多模态诱导器（PI）在早期和晚期使用时对模型性能的影响。

表5. 与UR-DMU、各模态骨干网络以及所提出的π-VAD在计算成本方面的比较

7. Conclusion

本文提出了π-VAD，这是首个用于弱监督视频异常检测（WSVAD）的多模态框架。它显著推动了视频异常检测技术的发展，突破了传统基于RGB的方法，通过整合多种模态来处理现实场景中复杂的异常类别。π-VAD纳入了五种辅助模态，即姿态、深度、全景掩码、光流和文本线索，这些模态共同为异常检测提供了丰富多样、细粒度的上下文线索。两种新颖的集成模块，即伪模态生成器和跨模态诱导模块，能够在训练过程中实现有效的多模态学习，并且在推理过程中不会增加额外的计算负担。π-VAD在三个主要数据集上展现出了领先的性能，为在现实应用中进行稳健且高效的弱监督异常检测树立了新的标杆。