【视频异常检索】Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model

L1783516140

已于 2024-07-15 10:28:08 修改

阅读量610

点赞数 15

分类专栏：视频理解异常检索文章标签：论文阅读

于 2024-07-11 14:01:20 首次发布

本文链接：https://blog.csdn.net/L1783516140/article/details/140350167

版权

视频理解同时被 2 个专栏收录

9 篇文章 1 订阅

订阅专栏

异常检索

1 篇文章 0 订阅

订阅专栏

摘要

视频异常检测(VAD)由于其潜在的应用前景而受到越来越多的关注，目前其主要任务集中在在线异常检测上，可以大致理解为二元或多事件分类。然而，这种在复杂异常事件和单一标签之间建立关系的设置，例如“故意破坏”，是肤浅的，因为单一标签不足以表征异常事件。在现实中，用户倾向于搜索一个特定的视频，而不是一系列近似的视频。因此，对异常事件进行详细描述检索具有积极的现实意义，但相关研究较少。在此背景下，我们提出了一个新的任务，称为视频异常检索(VAR)，其目的是通过跨模态，如语言描述和同步音频，实用地检索相关的异常视频。与当前的视频检索不同，当前的视频被认为是短暂的修剪过的，VAR被设计用来检索可能与给定查询部分相关的未修剪的长视频。为了实现这一目标，我们提出了两个大规模的VAR基准测试，并设计了一个称为异常引导的对齐网络(ALAN)的VAR模型。在ALAN中，我们提出了一个异常主导采样来关注长未修剪视频中的关键片段。然后，我们引入了一个有效的pretext任务来增强视频文本细粒度表示之间的语义关联。此外，我们利用两个互补的对齐进一步匹配跨模态内容。两个基准的实验结果揭示了VAR任务的挑战，也证明了我们的定制方法的优势。说明文字在https://github.com/Roc-Ng/VAR公开发布。

引言

视频异常检测(VAD)在视频内容分析中起着至关重要的作用，因其在危险预警等方面的潜在应用前景而成为研究的热点。VAD的定义是识别异常发生的位置，可以看作是帧级事件分类。VAD大致可分为半监督[1]-[5]和弱监督[6]-[10]两类。前者通常通过自我监督学习或单类学习来识别异常。后者由于有大量带有视频级标签的正常和异常视频，实现了更好的检测精度。

VAD已经取得了令人印象深刻的进展，然而，视频中的事件通常捕获的是随着时间的推移而演变的动作和实体之间的相互作用，在VAD中简单地使用单个标签可能不足以解释所描述的连续事件。此外，与VAD相比，离线视频搜索到目前为止在现实应用中仍然更常用。想象一下，在搜索相关视频时，我们更愿意使用全面的描述来准确搜索，例如，“在晚上，两个赤裸上身的男人砸了商店的门。”，而不是使用一个粗糙的词，例如“vandalism”，从而得到大量粗糙的结果。

在此基础上，我们提出了视频异常检索(VAR)任务，并提出了UCFCrime-AR和XDViolence-AR两个大规模的基准数据集，进一步促进了视频异常分析的研究。VAR的目标是检索相关的未修剪的视频给出跨模式查询，例如，文本标题和同步音频，反之亦然。与VAD不同，VAR从多个角度描述异常，并充分表征连续事件。我们在图1中说明了视频异常检索的优势。VAR任务在实际应用中具有很高的价值，特别是在智能地面和汽车监控中。一般来说，对于监控而言，录制的视频会以一定时间长度的一系列片段的形式存储在硬盘或存储卡中。在异常事件发生后，我们需要通过描述搜索到所查询的异常事件所对应的视频片段，比如一辆白色轿车撞上了一辆面包车的尾部，一群人在夜间破门而入等。

在这里插入图片描述

图1

我们的VAR与传统的视频检索(VR)有很大的不同。在传统的视频检索中，视频被假定为短时间的临时预修剪，因此整个视频被假定为与匹配对查询完全相关。在现实中，视频通常没有经过很好的修剪，可能只存在部分片段来完全满足查询。在VAR中，主要目标是检索长且未修剪的视频。这样的设置更符合现实的要求，也引发了新的挑战。具体来说，在给定成对查询的视频中，相关片段的长度是可变的。对于正常视频，相关片段一般为整个视频；对于异常视频，由于视频中异常事件的长度是不恒定的，相关片段可能只占整个视频的一小部分或大部分。此外，我们的VAR任务也不同于视频moment检索(VMR)[14] -[17]，因为后者是检索moment而不是未修剪的视频。由于VAR中异常视频和正常视频(无异常)都需要检索，视频moment检索方法很难解决这一问题。传统的视频检索和视频moment检索方法不能很好地解决这一新的挑战，具体结果如表2和表3所示。视频检索、视频moment检索和视频异常检索的区别如图2所示。

在这里插入图片描述

图2

为了克服上述挑战，我们提出了一种用于视频异常检索的异常引导对齐网络ALAN。在ALAN中，视频、音频和文本编码器旨在将原始数据编码为高级表示，并且引入了跨模态对齐以从不同角度匹配跨模态表示。由于视频是长未修剪的，并且异常事件在场景和长度上具有复杂的变化，我们期望在编码阶段，检索系统保持整体视图，同时关注关键的异常片段，因此，普通的固定帧抽样，如均匀抽样和随机抽样，不能灵活地关注特定的异常片段。受动态神经网络[18]-[21]的启发，我们提出了一种异常引导采样方法，该方法简单地利用由自定义异常检测器生成的帧级异常先验，不需要交叉模态之间进行密集的两两交互，以选择异常识别度大的关键片段。然后，我们将这两种双赢的采样机制耦合到视频和音频中，其中异常引导的采样专注于异常片段，而固定帧采样则关注整体以及正常视频。此外，为了建立视频文本细粒度表示之间的关联并保持较高的检索效率，我们还提出了一种pretext任务，即基于视频提示的屏蔽短语建模(VPMPM)，为模型训练服务。特别是，一个名为prompt Decoder的新模块将帧级视频表示和上下文文本表示作为输入，并通过跨模态注意力预测被屏蔽的名词短语或动词短语，其中视频表示作为固定提示[22]，[23]。本文将视频帧作为细粒度，因为帧通常反映视频更详细的内容，同时将文本中的名词短语和动词短语，如“a black car”和“left quickly”作为细粒度，分别反映视频中局部的空间内容和时间动态。值得注意的是，与名词和动词相比，名词短语和动词短语包含的内容更多，也更能说明它们之间的细微差别。最后，该代理训练目标优化了编码器参数，并通过跨模态交互进一步促进了局部视频帧与文本短语之间的语义关联。

总而言之，我们的贡献有三点：

我们引入了一个新的任务，称为视频异常检索，以弥合文献和现实应用在视频异常分析方面的差距。据我们所知，这是第一次从VAD转向VAR；
我们提出了两个大规模的基准，即UCFCrimeAR和XDViolence-AR，基于公共VAD数据集。前者适用于视频-文本VAR，后者适用于视频-音频VAR；
针对VAR中的挑战，我们提出了一个名为ALAN的模型，其中引入了异常引导采样、基于视频提示的屏蔽短语建模和跨模态对齐，分别用于关注异常片段、增强细粒度关联和多视角匹配。

基准

手动收集大规模的视频基准是费力且耗时的，也是主观的，因为视频理解通常是一个定义不清的任务，注释器一致性很低[68]。因此，我们从VAD领域公认的两个数据集UCF-Crime[6]和XD-Violence[7]开始，构建我们的VAR基准，我们采用这两个数据集作为基础，因为它们是迄今为止在长度和场景方面最全面的两个VAD数据集，它们的总时长分别为128和217小时。分别。此外，它们也从各种场景中收集。例如，UCF-Crime涵盖了13个现实世界的异常以及正常活动，而XD-Violence则从电影和YouTube中捕获了6个异常和正常活动。此外，两者都包含一半正常视频和一半异常视频，因此检索系统可以从VAR中给出相关跨模态查询的视频库中检索异常视频和正常视频。大型和多样化的视频数据库使我们能够构建更实用的VAR基准。

A. UCFCrime-AR

UCF-Crime数据集由1900个未经修剪的视频组成，其中包含950个异常视频和950个正常视频。值得注意的是，对于训练集中的异常视频，异常活动的开始时间戳和持续时间是不可知的。对于正常的视频，它们完全没有异常。我们直接使用所有的视频作为视频搜索库。为了实现跨模态检索，我们需要相对应的文本描述。

我们邀请了8位精通中英文的资深注释者为这些视频进行注释。注释者观看整个视频，并制作相应的中英文字幕。具体来说，注释者在描述异常视频时需要关注异常事件。由于同一异常类别的视频存在细微差异，我们需要获得高质量的句子注释来区分细微差异，避免当前视频检索中经常出现的一对多困境[69]。具体来说，同一类别的视频最多只能有两个注释者来描述。对于同一类别的两个相似的视频，尽可能详细地描述它们的差异。以两个人打架的场景为例，例如：“在一次聚会上，那个黄头发的人突然袭击了他对面的一个人。“一个年轻人在电梯里突然殴打另一个戴眼镜的人。”以上两个注释清楚地描述了两个相似视频之间的区别。最后，我们会对每一个句子的描述进行复核，以保证质量。

UCF-Crime划分后，UCFCrime-AR包括1610个训练视频和290个测试视频。每个视频都配有中英文字说明。在这项工作中，我们只使用英文文字说明。

B. XDViolence-AR

对于XD-Violence，我们发现视频的内容和场景非常复杂，很难用几句话来描述。因此，我们改变了研究重点，利用其自然的视听信息，开辟了一条音视频检索的新路，即利用视频和同步音频进行跨模态异常检索。与文本不同，音频与视频具有相同的粒度。与UCF-Crime类似，XD-Violence也是一个弱监督数据集，即帧级注释是未知的。XDViolence-AR分为两个子集，其中3954个长视频用于训练，800个用于测试。

C. Benchmark Statistics

我们将两个基准与表1中的几个跨模态检索/定位数据集进行比较。可以看到，UCFCrime-AR和XDViolence-AR中的视频数据库都是大规模的，并且是近年来公开的，前者应用于视频文本(V-T)异常检索，后者应用于视频音频异常检索(V-A)。值得注意的是，VAR基准中的视频平均长度明显长于传统视频检索数据集中的视频。例如，UCFCrime-AR和XDViolence-AR的视频平均长度分别为242秒和164秒，而MSR-VTT[70]、VATEX[71]、VAE [45]、AudioCaps[72]和LLP[73]的视频平均长度在10秒到20秒之间，TVR[74]主要应用于视频瞬间检索任务，其视频平均长度仍然比我们的基准短得多。较长的视频再次强调VAR的目标是检索长且未修剪的视频，这样的设置符合现实要求，也表明VAR是一项更具挑战性的任务。对于视频文本UCFCrime-AR，我们也在图3中给出了说明文字的直方图分布。UCFCrime-AR-en、UCFCrime-ARzh的平均文字说明长度分别为16.3和22.4，比以往的视频检索数据集的文字说明长度要长。例如，VATEX-en[71]、VATEX-zh[71]和MSR-VTT[70]的平均文字说明长度分别为15.23、13.95和9.28。

在这里插入图片描述

表1

在这里插入图片描述

图3

方法

在本节中，我们将详细介绍ALAN。在第IV-A节中，我们首先介绍了ALAN中的三个编码器，即视频编码器、文本编码器和音频编码器，这些编码器的目标是将原始视频、文本和音频投影到高级表示中。在第IV-B节中，我们介绍了用于视频编码器和音频编码器的异常引导采样机制。在第IV-C节中，我们描述了一种新的pretext任务，即VPMPM，它被应用于视频文本异常检索。最后，在IV-D和IV-E中描述了跨模态对齐和训练目标。

A. Encoders

Video encoder

与图像不同，视频具有时空信息[75]，[76]。因此，我们考虑了外观和运动信息来编码视频。具体来说，给定一个视频 $v$ ，我们使用在Kinetics上预训练的I3D-RGB和I3D-Flow[77]分别提取帧级对象和运动特征，然后将这些特征投影到d维空间中进行后续操作。其中，对象和运动特征序列分别记为 $F^{o}(v)$ 和 $F^{m}(v)$ 。这两个序列都包含T个片段特征。为了清楚起见，我们用 $\boldsymbol{F}(v)$ 表示 $F^{o}(v)$ 和 $F^{m}(v)$ 。考虑到未修剪视频中异常事件持续时间的变化，我们通过固定帧采样和我们提出的异常采样，从 $\boldsymbol{F}(v)$ 中采样两个具有不同关注点的稀疏视频片段，即 $U$ 和 $R$ 。

如图4所示，视频编码器是对称的双流模型，一流作为输入对象，另一流作为输入运动。为了融合不同模式和不同时间的特征进行最终表示，我们采用Transformer[78]作为基本模型，该模型已广泛用于VAD和VR任务，并取得了良好的效果。例如，Huang等人[79]和Zhao等人[80]分别使用Transformer来处理VAD和VR任务。我们首先连接两个不同的采样片段作为一个新的序列，即， $U_{CLS},U_{1},...,U_{N},R_{CLS},R_{1},...,R_{N}]$ ，其中 $U_{CLS}$ 和 $R_{CLS}$ 是 $\text{[CLS]}$ tokens，分别是 $\bf{U}$ 和 $\bf{R}$ 中所有特征的平均聚合。然后，我们将位置嵌入[78]和序列嵌入添加到该序列中。在这里，位置嵌入提供了关于视频中时间的时间信息，序列嵌入描述了 $\bf{U}$ 和 $\bf{R}$ 中的特征来自不同的序列。在视频编码器中，自编码器(Self encoder)用于捕获上下文信息，是Transformer中的标准编码器层。下面的Cross Encoder以自模态为query，以跨模态上下文特征为key和value，通过跨模态注意力编码跨模态表征。交叉编码器由多头注意力、线性层、残差连接和层归一化组成。最后，我们得到了两种不同的视频表示，一种是 $U_{CLS}$ 和 $R_{CLS}$ 输出的平均值，记为 $g^{v}$ (包括 $g^{vo}$ 和 $g^{vm}$ )，另一种是 $U$ 和 $R$ 输出的平均池化聚合的平均值，记为 $h^{v}$ (包括 $h^{vo}$ 和 $h^{vm}$ )。这种简单的池化操作在我们的工作中是无参数且有效的，使 $h^{v}$ 能够涉及局部细粒度信息。

在这里插入图片描述

图4

Text encoder

给出一个文本标题，我们的目标是在两个不同的层次上学习它和相关视频之间的对齐。首先，我们利用预训练的BERT[13]来提取特征，这得益于其在语言表示中的广泛采用和经过验证的性能。在视频编码器之后，我们从BERT的 $[C L S]$ 输出中获得 $g^t$ ，并通过使用单词级表示的平均池化操作获得 $h^t$ 。为了匹配视频的对象和运动表示，这里我们使用作用于 $g^t$ 和 $h^t$ 的门控嵌入单元[11]分别生成 $g^{to}$ , $g^{tm}$ 和 $h^{to}$ ， $h^{tm}$ 。

Audio encoder

对于音频 $a$ ，我们首先使用预训练的VGGish[81]提取音频特征，并将这些特征投影到d维空间中。如图4所示，音频编码器在结构上与视频编码器相似。不同之处在于音频编码器是单流模型，没有交叉编码器。同样，得到了两种不同的音频表示 $g^a$ 和 $h^a$ 。门控嵌入单元还用于匹配视频的对象和运动表示。

B. Anomaly-Led Sampling

如前所述，只有固定帧采样(FS)不能捕获异常视频中的可变异常事件。我们利用异常先验并提出异常引导采样(AS)，以使异常片段更有可能被选择。由于帧级注释是未知的，因此不可能直接识别异常剪辑。为了解决这个问题，我们利用弱监督异常检测器来预测片段级异常置信度 $l\in\mathbb{R}^T$ ，其中 $l_{i}\in[0,1]$ 。有了 $l$ ，我们期望对于一个片段，被选中的概率与其异常置信度正相关。一种自然的方法是选择异常置信度最高的顶部几个剪辑，但这种解决方案过于严格而不灵活。我们认为那些异常置信度低的片段也应该有一定的概率被选择，一方面是为了增强数据，另一方面是为了抢救异常检测器的假阴性。受进化算法选择策略的启发[82]，[83]，我们的异常引导抽样基于经典的轮盘选择[84]。我们将异常置信度 $l$ 作为适应度，然后将所有值归一到区间[0,1]，以保证选择概率之和等于1。

$\begin{aligned}p_i=\frac{\exp{(l_i/\tau)}}{\sum_{k=1}^T\exp{(l_k/\tau)}}\quad&(1)\end{aligned}$

其中 $p$ 为选择概率，τ为温度超参数[85]。然后计算累积概率，

$q_i=\sum_{k=1}^ip_k\quad(2)$

需要注意的是， $q_{0}=0$ ， $q_{T}=1$ 。最后一步是在区间[0,1]内生成N个均匀分布的随机数。对于每个生成的数字 $r$ ，如果 $q_{i-1}<r\leq q_{i}$ ，则选择 $\boldsymbol{F}(v)$ 中的第 $i$ 个特征。一个有 $N$ 个片段级特征的序列以这样的方式组合，其中一个片段的异常置信度越大，越有可能被选中。在算法1中给出了异常引导采样的算法流程。

在这里插入图片描述

算法1

该基于异常引导采样的特征序列主要用于覆盖异常片段，同时，我们也使用固定帧采样，例如均匀或随机，生成另一个包含 $N$ 个片段的序列，用于完整场景和正常场景。

C. Video Prompt Based Masked Phrase Modeling

我们提出了一种新的pretext任务，即基于视频提示的屏蔽短语建模，用于视频文本异常检索中的跨模态细粒度关联。VPMPM以视频表示和文本表示作为输入，预测被屏蔽短语，这与自然语言处理中流行的被屏蔽语言建模有关。主要区别在于(1)VPMPM对名词短语和动词短语进行屏蔽和预测，而不是随机选择单词。与单个单词不同，名词短语和动词短语由不同词性的单词组成，如名词、形容词、动词、副词等，更好地对应视频帧中的局部对象和运动；(2) VPMPM通过跨模态注意力将视频表示与文本表示融合，其中视频表示作为固定提示[23]。这两种特殊的设计鼓励视频编码器和文本编码器捕捉跨模态和上下文表示交互。

为了实现这个pretext任务，我们引入了一个提示解码器，它是Transformer中使用的标准解码器层。由于VPMPM涉及到预测被掩盖名词短语和被掩盖动词短语的目标，提示解码器需要以参数共享的方式分别处理名词短语和动词短语。给定最终的视频帧级表示 $X^{v}$ 和文本词级表示 $X^{t}$ ，我们首先用掩码嵌入随机替换名词短语或动词短语表示[86]，其中每个掩码token是一个共享的学习向量。这里我们将这个被屏蔽的文本表示表示为 $\widehat{X}^{t}$ 。然后我们将 $\widehat{X}^{t}$ 作为查询，并将 $X^{v}$ 作为键和值，将它们输入到提示解码器中以预测被屏蔽的内容。

D. Cross-Modal Alignment

在本文中，跨模态对齐用于从两个互补的角度匹配不同模态的表示，例如视频-文本和视频-音频。因此，我们处理CLS对齐和AVG对齐。除非另有说明，这里我们以视频文本为例来描述这两种对齐方式。

CLS alignment.

CLS对齐的目的是计算 $g^v$ 和 $g^t$ 之间的相似度，它们之间的相似度是一个加权和[13]，计算为：

$s^{g}(v,t)=w_{ta}cos(\boldsymbol{g}^{vo},\boldsymbol{g}^{to})+w_{tm}cos(\boldsymbol{g}^{vm},\boldsymbol{g}^{tm})\quad(3)$

其中 $cos(\cdot,\cdot)$ 是两个向量之间的余弦相似度。 $w_{ta}$ 和 $w_{tm}$ 为权重，分别由 $g^{ta}$ 和 $g^{tm}$ 得到。具体来说，我们通过一个带有softmax归一化的线性层传递 $g^{ta}(g^{tm})$ ，并输出 $w_{ta}(w_{tm})$ 。

AVG alignment.

AVG对齐旨在计算 $h^v$ 和 $h^t$ 之间的相似度 $s^{h}(v,t)$ ，这与CLS对齐相同。值得注意的是，AVG对齐引入了更多细粒度的信息。相似度表示为：

$s^h(v,t)=w_{ta}cos(\boldsymbol{h}^{vo},\boldsymbol{h}^{to})+w_{tm}cos(\boldsymbol{h}^{vm},\boldsymbol{h}^{tm})\quad(4)$

E. Training Objectives

$v$ 和 $t$ 的最终相似度是 $s^{g}(v,t)$ 和 $s^{h}(v,t)$ 的加权和，即：

$\begin{aligned}s(v,t)=\alpha s^g(v,t)+(1-\alpha)s^h(v,t)\quad&(5)\end{aligned}$

其中α为超参数，其取值范围为[0,1]。根据前面的工作[13]，我们得到了双向最大边界排序损失，其表达式为:

$\mathcal{L}_{align}=\frac{1}{B}\sum_{i=1}^{B}\sum_{j\neq i}\left[\left[s_{ij}-s_{ii}+\Delta\right]_{+}+\left[s_{ji}-s_{ii}+\Delta\right]_{+}\right]$ （6）

其中 $b$ 为批大小， $s_{ij}=s(v_{i},t_{i})$ 。

为了优化视频编码器中的弱监督异常检测器，我们使用top-k策略[32]，[87]从帧级置信度 $l$ 中获得视频级预测，其计算为：

$\boldsymbol{l}=\frac1k\sum_{i=1}^k\boldsymbol{l}_i^{topk}\quad(7)$

其中 $\begin{matrix}k&=&\lfloor\frac{T}{16}\rfloor\end{matrix}$ ， $l^{topk}$ 是视频 $v$ 在 $l$ 中的k-max帧级置信度集合。我们使用视频级预测 $\rho^{v}$ 和视频级二元标签 $y^v$ 之间的二元交叉熵损失 $\mathcal{L}_{topk}$ 来训练这个检测器，

$\mathcal{L}_{topk}=-\left[y^vlog\left(\rho^v\right)+(1-y^v)log\left(1-\rho^v\right)\right]\quad(8)$

对于视频-文本异常检索中的VPMPM，我们采用模型预测概率 $\rho^t(X^t,X^v)$ 与真值 $y^{mask}$ 之间的交叉熵损失 $\mathcal{L}_{mpm}$ ，即：

$\mathcal{L}_{mpm}=-y^{mask}log\left(\rho^t(\widehat{X}^t,X^v)\right)\quad(9)$

其中， $y^{mask}$ 是一个one-hot词汇表分布。

最后，总损失如下：

$\mathcal{L}_{total}=\mathcal{L}_{align}+\lambda_{1}\mathcal{L}_{topk}+\lambda_{2}\mathcal{L}_{mpm}\quad(10)$

L1783516140

关注

15
点赞
踩
13

收藏

觉得还不错? 一键收藏
0
评论
【视频异常检索】Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model

视频异常检测(VAD)由于其潜在的应用前景而受到越来越多的关注，目前其主要任务集中在在线异常检测上，可以大致理解为二元或多事件分类。然而，这种在复杂异常事件和单一标签之间建立关系的设置，例如“故意破坏”，是肤浅的，因为单一标签不足以表征异常事件。在现实中，用户倾向于搜索一个特定的视频，而不是一系列近似的视频。因此，对异常事件进行详细描述检索具有积极的现实意义，但相关研究较少。在此背景下，我们提出了一个新的任务，称为视频异常检索(VAR)，其目的是通过跨模态，如语言描述和同步音频，实用地检索相关的异常视频。
复制链接

扫一扫