【弱监督视频异常检测】2022-AAAI-用于弱监督视频异常检测的 Transformer 自训练多序列学习

念啊啊啊啊丶

已于 2024-09-23 23:31:10 修改

阅读量8

点赞数

分类专栏：弱监督视频异常检测文章标签：深度学习人工智能机器学习神经网络计算机视觉

于 2023-03-27 09:35:40 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/129784126

版权

弱监督视频异常检测专栏收录该内容

4 篇文章 0 订阅

订阅专栏

2022-AAAI-Self-Training Multi-Sequence Learning with Transformer for Weakly Supervised Video Anomaly Detection

用于弱监督视频异常检测的 Transformer 自训练多序列学习

用于弱监督视频异常检测的 Transformer 自训练多序列学习

论文地址

摘要

使用多实例学习（MIL）的弱监督视频异常检测（VAD）通常基于异常片段的异常分数高于正常片段的异常分数这一事实。在训练之初，由于模型精度有限，很容易选择错误的异常片段。为了减少选择错误的概率，我们首先提出了一种多序列学习（MSL）方法和一种基于铰链的 MSL 排名损失，它使用由多个片段组成的序列作为优化单元。然后，我们设计了一个基于 Transformer 的 MSL 网络来学习视频级异常概率和片段级异常分数。在推理阶段，我们建议使用视频级异常概率来抑制片段级异常分数的波动。最后，由于 VAD 需要预测片段级别的异常分数，因此通过逐渐减少所选序列的长度，我们提出了一种自训练策略来逐步细化异常分数。实验结果表明，我们的方法在 ShanghaiTech、UCF-Crime 和 XD-Violence 上取得了显着的改进。

1. 引言

视频异常检测（VAD）旨在检测视频中的异常事件，具有重要的实用价值（Zhang, Qing, and Miao 2019; Guo et al 2021）。通常，VAD 预测视频中每个片段的异常分数。主要有三种范式：无监督 VAD（Gong et al 2019; Cai et al 2021）、弱监督 VAD（Zhong et al 2019）和有监督 VAD（Liu and Ma 2019; Wan et al 2021）。无监督 VAD 仅在正常视频上学习，假设未见过的异常视频具有较高的重建错误。由于缺乏异常的先验知识并且无法学习所有正常的视频模式，无监督 VAD 的性能通常很差（Tian et al 2021）。由于细粒度的异常标记费时费力，因此很难为监督范式收集大规模数据集。弱监督范式以视频是否包含异常作为视频级标签，预测每一帧的异常得分。由于其具有竞争力的性能，弱监督范式被证明是一种可行的方法（Feng, Hong, and Zheng 2021）。最近，许多研究人员将注意力集中在弱监督 VAD 上（Zhong et al 2019）。

大多数弱监督 VAD 基于多实例学习（MIL）（Sultani, Chen, and Shah 2018; Zhu and Newsam 2019; Wan et al 2020; Tian et al 2021）。基于 MIL 的方法将视频视为包含多个实例的包。每个实例都是一个片段。异常视频生成的包称为正包，正常视频生成的包称为负包。由于视频级标签表示视频是否包含异常，因此正包至少包含一个异常片段，负包不包含异常片段。基于 MIL 的方法通过 bag-level 标签学习实例级异常分数（Zhong et al 2019）。

在基于 MIL 的方法中，至少有一个正包实例包含异常，而负包的任何实例都不包含异常（Sultani, Chen, and Shah 2018）。通常，基于 MIL 的方法假设正包中异常得分最高的实例的排名应高于负包中异常得分最高的实例（Zhu and Newsam 2019）。因此，对于基于 MIL 的方法来说，重要的是正确选择正包中的异常实例。大多数基于 MIL 的方法将实例视为优化单元（Zhang, Qing, and Miao 2019; Feng, Hong, and Zheng 2021; Tian et al 2021）。但是，如果模型错误地预测了正包中的异常实例，则随着训练的进行，这种错误会加强。也就是说，如果一个正常实例被预测为异常实例，这个错误会影响后续的实例选择。此外，异常事件通常是多个连续的片段，但基于 MIL 的方法并没有考虑到这一点。

为了缓解上述缺点，我们提出了一种多序列学习（MSL）方法。我们的 MSL 不再以实例为优化单元，而是以多个实例组成的序列为优化单元。换句话说，我们的 MSL 方法不是选择异常分数最高的实例，而是选择异常分数总和最高的序列。这减少了错误选择异常实例的概率。为了实现我们的 MSL，我们提出了一个基于 Transformer 的多序列学习网络，它包括一个多层卷积 Transformer 编码器来编码提取的片段特征，一个视频分类器来预测视频级异常分数，以及一个片段回归器来预测片段级异常分数。在推理阶段，我们建议使用视频级异常分数来抑制片段级异常分数的波动。由于 VAD 的目标是预测细粒度的异常分数（Tian et al 2021），因此使用两阶段自训练策略来逐渐细化异常分数。

为了演示我们的 MSL 的性能，我们使用 VideoSwin（一种基于 Transformer 的方法）（Liu et al 2021c）作为提取片段级特征的骨干，并在 ShanghaiTech（Luo, Liu, and Gao 2017）、UCF-Crime（Sultani, Chen, and Shah 2018）和 XD-Violence（Wu et al 2020）上进行实验。为了公平比较，我们还使用 C3D（Tran et al 2015）和 I3D（Carreira and Zisserman 2017）作为骨干来提取特征。实验表明，我们的 MSL 达到了最先进的结果。总之，我们的主要贡献如下：

我们提出了一种多序列学习方法，它使用由多个实例组成的序列作为优化单元。基于此，我们提出了多序列学习排序损失，它选择异常分数总和最高的序列。
基于多序列学习及其排序损失，我们设计了一个基于 Transformer 的多序列学习网络，并提出在推理阶段使用视频级异常分类概率来抑制片段级异常分数的波动。
通过逐渐减少所选序列的长度，我们提出了一种两阶段的自训练策略来逐步细化异常分数，因为 VAD 需要预测细粒度的异常分数。
实验结果表明，我们的方法在 ShanghaiTech、UCF-Crime 和 XD-Violence 上取得了最先进的结果。可视化表明我们的方法可以实现异常片段的检测。

2. 相关工作

2.1. 弱监督视频异常检测

大多数现有的弱监督 VAD 方法（He, Shao, and Sun 2018; Zhang, Qing, and Miao 2019）都是基于 MIL。由于 2017 年之前的大多数方法（Li, Mahadevan, and Vasconcelos 2014; Zhao, Fei-Fei, and Xing 2011）仅使用正常的训练视频，He、Shao 和 Sun 提出了一种引入异常的学习方法来检测异常事件，并提出了一个基于图的 MIL 模型，其中包含正常和异常视频数据（He, Shao, and Sun 2018）。Sultani、Chen 和 Shah 提出了深度 MIL 排名损失来预测异常分数（Sultani, Chen, and Shah 2018）。Zhang、Qing 和 Miao 通过定义内包损失进一步引入了内包得分差距正则化（Zhang, Qing, and Miao 2019）。Zhong 等人将弱标签的异常检测视为噪声标签下的监督学习，并设计了一种替代训练程序来促进动作分类器的辨别力（Zhong et al 2019）。Zhu 和 Newsam 提出了一种基于注意力的时间 MIL 排序损失，它使用时间上下文更好地区分异常事件和正常事件（Zhu and Newsam 2019）。Wan 等人提出动态 MIL 损失以扩大异常实例和正常实例之间的类间距离，并提出中心损失以减少正常实例的类内距离（Wan et al 2020）。Feng、Hong 和 Zheng 提出了一种基于 MIL 的伪标签生成器，并采用自训练方案通过优化自引导注意编码器和任务特定编码器来改进伪标签（Feng, Hong, and Zheng 2021）。Tian 等人提出了一种鲁棒的时间特征量级学习来有效地识别异常实例（Tian et al 2021）。

2.2. 自训练

自训练广泛用于半监督学习（Rosenberg, Hebert, and Schneiderman 2005; Tanha, van Someren, and Afsarmanesh 2017; Tao et al 2018; Li et al 2019; Jeong, Lee, and Kwak 2020; Tai, Bailis, and Valiant 2021）。在自我训练中，训练数据通常包含标记和未标记数据（Liu et al 2011）。自我训练包括以下步骤（Zheng et al 2020; Yu et al 2021）：1）使用标记数据训练模型；2）使用训练好的模型预测未标记的数据，生成伪标签；3）同时使用标记和伪标记数据一起训练模型；4）重复 2）和 3）。在 VAD 中，Pang 等人提出了一种用于序数回归的自训练深度神经网络（Pang et al 2020）。Feng、Hong 和 Zheng 提出了一种多实例自训练方法，该方法为异常视频中的所有片段分配片段级伪标签（Feng, Hong, and Zheng 2021）。与他们不同，我们的重点是通过自我训练来提炼异常分数。

2.3. Transformer 结合卷积

越来越多的研究表明 Transformer 具有出色的性能（Dosovitskiy et al 2021; Touvron et al 2021; Liu et al 2021b）。Dosovitskiy 等人首先证明了纯 Transformer 架构可以获得最先进的性能（Dosovitskiy et al 2021）。Touvron 等人进一步探索了 vision Transformer 的数据高效训练策略（Dosovitskiy et al 2021; Touvron et al 2021）。Liu 等人进一步介绍了各种图像识别任务的局部性、层次性和平移不变性的归纳偏差（Liu et al 2021b）。由于 Transformer 缺乏局部感知能力，许多作品结合了卷积和 Transformer（d’Ascoli et al 2021; Wu et al 2021; Li et al 2021; Xu et al 2021; Yan et al 2021; Zhang and Yang 2021; Liu et al 2021a）。为了引入局部帧间感知，类似于 Wu 等人，我们将 Transformer Block 中的线性投影转换为深度可分离的一维卷积（Chollet 2017; Howard et al 2017）。

3. 我们的方法

在本节中，我们首先定义符号和问题陈述。然后我们介绍我们的多序列学习（MSL）。最后，我们介绍了我们的方法的管道。

图 1

图 1：总体框架。(a) 我们的多序列学习（MSL）的架构，其中包括一个骨干网和一个基于 Transformer 的 MSL 网络（MSLNet）。Backbone 提取的特征 F∈T×D 被输入到 MSLNet 中以预测异常分数，其中 T 是片段的数量，D 是每个片段的特征维度。MSLNet 包含一个视频分类器来预测包含异常的视频的概率 p 和一个片段回归器来预测第 i 个片段的片段异常分数 fθ(vi)。BCE 是二元交叉熵损失。(b) 自训练 MSL 的管道，其中 K 通过自训练机制逐渐从 T 变为 1。根据选择序列的方式，MSL的优化包括两个阶段：第一阶段使用伪标签选择序列，第二阶段使用预测选择序列。(c) 卷积 Teansformer 编码器（CTE），类似于 (Dosovitskiy et al 2021)，只是线性投影被替换为 DW Conv1D（Depthwise Separable 1D Convolution）（Howard et al 2017）。

3.1. 符号和问题陈述

在弱监督 VAD 中，训练视频仅在视频级别进行标记。也就是说，包含异常的视频被标记为 1（正），没有任何异常的视频被标记为 0（负）。给定一个带有 $T$ 个片段的视频 $V=\left\{v_i\right\}_{i=1}^T$ 及其视频级标签 $Y\in\left\{0,\ 1\right\}$ 。基于 MIL 的方法将视频 $V$ 视为一个包，将每个片段视为一个实例。正视频被视为正包 $\mathcal{B}_a=\ \left(a_1,\ a_2,\ ...,\ a_T\right)$ ，负视频被视为负包 $\mathcal{B}_n=\left(n_1,\ n_2,\ ...,\ n_T\right)$ 。VAD 的目标是学习一个函数 $f_\theta$ 将片段映射到它们的异常分数，范围从 0 到 1。通常，基于 MIL 的 VAD 假设异常片段比正常片段具有更高的异常分数。Sultani、Chen 和 Shah 将 VAD 表述为异常分数回归问题，并提出了 MIL 排名目标函数和 MIL 排名损失（Sultani, Chen, and Shah 2018）：

公式 1

公式 2

等式 1 和等式 2 背后的直觉是，正包中异常得分最高的片段应该比负包中异常得分最高的片段排名更高（Zhu and Newsam 2019）。为了在正面和负面实例之间保持较大的差距，Sultani、Chen 和 Shah 给出了基于铰链的排名损失：

公式 3

在优化开始时， $f_\theta$ 需要有一定的异常预测能力。否则，将有可能选择正常实例作为异常实例。如果 $f_\theta$ 错误地预测了正包中的实例，例如将正常实例预测为异常实例，这个错误会随着训练的进行而加强。此外，异常部分通常是多个连续的片段，但是基于 MIL 的方法没有考虑到这一点。

图 2

图 2：MIL 和我们的 MSL 实例选择方法的比较。(a) 包含 T 个片段的视频的异常分数曲线，假设第 5 个片段具有最大的异常分数 fθ(v5)。(b) MIL 的实例选择方法，它选择第 5 个片段。(c) 我们的 MSL 的实例选择方法，它选择一个由 K 个连续片段组成的序列，从第 i 个片段开始。

3.2. 多序列学习

为了缓解基于 MIL 的方法的上述缺点，我们提出了一种新颖的多序列学习（MSL）方法。如图 2 所示，给定带有 $T$ 个片段的视频 $V=\left\{v_i\right\}_{i=1}^T$ ，通过映射函数 $f_\theta$ 预测异常评分曲线。让我们假设第 5 个片段 $v_5$ 具有最大的异常分数 $f_\theta\left(v_5\right)$ 。在基于 MIL 的方法中，将选择第 5 个片段来优化网络（Zhu and Newsam 2019）。在我们的 MSL 中，给定超参数 K，我们提出了一种序列选择方法，该方法选择包含 $K$ 个连续片段的序列。具体来说，我们计算了 $K$ 个连续片段的所有可能序列的异常分数的平均值：

公式 4

其中 $s_i$ 表示从第 $i$ 个片段开始的 $K$ 个连续片段序列的异常分数的平均值。然后，可以通过 ${max}_{s_i\in S}s_i$ 选择具有最大异常分数均值的序列。

基于上述序列选择方法，我们可以简单地使用一个 MSL 排序目标函数为：

公式 5

其中 $s_{a,i}$ 和 $s_{n,i}$ 分别表示异常视频和正常视频中从第 $i$ 个片段开始的 $K$ 个连续片段的异常分数的平均值。我们的 MSL 排名目标函数的直觉是，异常视频中 $K$ 个连续片段的异常得分均值应大于正常视频中 $K$ 个连续片段的异常得分均值。为了在正例和负例之间保持较大的余量，类似于等式 3。我们基于铰链的 MSL 排名损失定义为：

公式 6
可以看出 MIL 是我们 MSL 的一个案例。当 $K = 1$ 时，MIL 和我们的 MSL 是等价的。当 $K = T$ 时，我们的 MSL 将异常视频中的每个片段都视为异常。

3.3. 基于 Transformer 的 MSL 网络

Convolutional Transformer Encoder。在介绍我们基于 Transformer 的 MSL 架构之前，我们首先介绍了基础层。Transformer（Vaswani et al 2017）使用序列数据作为建模远程关系的输入，并在许多任务中取得了长足的进步。我们采用 Transformer 作为我们的基本层。局部（local）帧或视频片段之间的表示也非常重要。但是，Transformer 不擅长学习相邻帧或片段的局部表示（Yan et al 2021）。如图 1 (c) 所示，我们用 DW Conv1d（可分离的1维卷积）（Howard et al 2017）投影替换了原始 Transformer 中的线性投影。新的 Transformer 命名为卷积 Transformer 编码器（CTE）。这样，我们的 CTE 可以继承 Transformer 和卷积神经网络的优势。

Transformer-based MSL Network。如图 1 (a) 所示，我们的体系结构包括一个骨干和一个 MSLNet。任何动作识别方法都可以用作骨干，例如 C3D（Tran et al 2015），I3D（Carreira and Zisserman 2017）和 VideoSwin（Liu et al 2021c）。与（Tian et al 2021）相似，骨干在动作识别数据集上使用预训练的权重（Karpathy et al 2014; Kay et al 2017）。通过骨干，一个特征 $F\in T\times D$ 从包含 $T$ 个片段的视频中提取，其中 $D$ 是每个片段的特征维数。我们的 MSLNet 将使用 $F$ 作为预测异常的输入。

我们的 MSLNet 包括视频分类器和片段回归器。视频分类器用于预测视频是否包含异常。具体而言，视频分类器包含两层 CTE 和一个线性头，用于预测视频是否包含异常的概率：

公式 7

其中 $\mathcal{W}^c$ 是线性头的参数， $p$ 是视频包含异常的概率，并且使用 class token 来预测 CTE 中汇总特征的概率。由于视频是否包含异常是二元分类问题，因此 $\sigma$ 选择了 sigmoid 函数。

片段（snippet）回归器用于预测每个片段的异常得分。具体而言，片段回归器包含两层 CTE 和一个线性头，用于预测每个片段的异常得分：

公式 8

其中 $\mathcal{W}^r$ 是线性头的参数， $f_\theta\left(v_i\right)$ 是第 $i$ 个片段的异常得分，而 $E^r\left[i\right]$ 是第 $i$ 个片段的特征。由于预测异常得分被视为回归问题，因此 $\sigma$ 选择sigmoid函数。

我们将视频分类器和片段回归器的优化视为多任务学习问题。优化 MSLNet 参数的总损失是我们基于铰链的 MSL 排名损失和分类损失的总和：

公式 9

其中 $\mathcal{L}\left(\mathcal{B}_a,\ \mathcal{B}_n\right)$ 是等式 6。BCE 是输出 $p$ 和目标 $Y$ 之间的二元交叉熵损失。

为了减少片段回归器预测的异常分数的波动，我们在推理阶段提出了一种分数修正方法。具体而言，分数校正方法通过使用视频是否包含异常的概率来纠正异常得分：

公式 10

这种方法的直觉是，当视频分类器预测视频包含较高概率的异常时，保留异常分数，当视频分类器预测视频包含较低概率的异常时，削弱异常分数。

3.4. 自训练 MSL

如图 1 (b) 所示，我们提出了一种自训练的机制，以实现从粗到细的训练。我们的 MSLNet 的训练过程包括两个培训阶段。在介绍我们的自训练机制之前，我们首先获得了训练视频的伪标签 $\hat{\mathcal{Y}}$ 。通过将弱监督 VAD 中已知的视频级标签 $\mathcal{Y}$ 作为片段的异常分数，我们可以立即获得初始的片段级伪标签。也就是说，对于异常视频，每个片段的伪标签为 1，对于正常视频，每个片段的伪标签为 0。

在训练的初始阶段，函数 $f_\theta$ 预测异常的能力很差。因此，如果序列是通过 $f_\theta$ 的预测直接选择的，则可能会选择错误的序列。基于这种动机，我们提出了一个过渡阶段（第一阶段）：使用伪标签的 MSL 来选择序列。具体而言，通过将等式 4 中的预测异常得分 $f_\theta\left(v_i\right)$ 替换为使用每个片段 $v_i$ 的伪标签 $\hat{\mathcal{Y}}$ ，我们选择了 ${max}_{s_i\in S}s_i$ 的伪标签最大的序列。基于此序列，我们可以计算 $s_{a,i}$ 和 $s_{n,i}$ ，然后通过基于铰链的 MSL 排名损失优化 MSLNet：

公式 11

其中， $s_{a,i}$ 和 $s_{n,i}$ 分别为异常视频和正常视频中从第 $i$ 个片段开始的伪标签均值最大的序列。经过 $E_1$ 时期训练后， $f_\theta$ 具有初步预测异常评分的能力。

在第二阶段，MSLNet 通过预测选择序列进行了优化。此阶段使用等式 5 和等式 6 计算排名损失。在 $E_2$ 时期训练之后，推断出训练视频新的片段级伪标签 $\hat{\mathcal{Y}}$ 。通过将序列长度 $K$ 减半并重复上述两个阶段，可以逐渐完善预测的异常得分。

过渡阶段的作用是建立 MSL 与不同的自训练轮之间的联系。通过引入自训练机制，我们可以预测从粗到细的异常得分。为了更好地理解，我们在算法 1 中显示了自训练的 MSL。

算法 1

4. 实验

4.1. 数据集和评估指标

我们在 Shanghaitech，UCF-Crime 和 XD-Violence 数据集上进行了足够的实验。

Shanghaitech 是一个中等规模的数据集，其中包含 437 个校园监控视频，其中包含 13 个场景中的 130 个异常事件（Luo, Liu, and Gao 2017）。但是，该数据集的所有训练视频都是正常的。根据弱监督的环境，我们采用了（Zhong et al 2019）提出的分割：238 训练视频和 199 个测试视频。

UCF-Crime是一个大规模数据集，包含 1,900 个未经修剪的现实街道和室内监视视频，其中包含 13 类异常事件，总持续时间为 128 小时（Sultani, Chen, and Shah 2018）。该训练集包含带有视频级标签的 1,610 个视频，测试集包含 290 个带有帧级标签的视频。

XD-Violence是一个大型数据集，包含 4,754 个未修剪视频，总持续时间为 217 小时，并从多个来源（例如电影，体育，监控和 CCTV）收集（Wu et al 2020）。该训练集包含 3,954 个带有视频级标签的视频，测试集包含 800 个带有帧级标签的视频。

遵循以前的工作（Zhong et al 2019; Wan et al 2020），我们将帧级 ROC（接收器操作特征）曲线（AUC）下的面积用作 Shanghaitech 和 UCF-Crime 的指标。遵循以前的工作（Wu et al 2020; Tian et al 2021），我们将平均精度（AP）用作 XD 暴力的度量。请注意，AUC 和 AP 的值越大，性能越好。

4.2. 实现细节

我们从 Sports-1M（Karpathy et al 2014）上预训练的 C3D（Tran et al 2015）的 fc6 层中提取 4096d 特征，从 Kinetics-400（Kay et al 2017）上预训练的 I3D（Carreira and Zisserman 2017）的 mixed5c 层中提取 1,024D 特征，从 Kinetics-400 预训练的 VideoSwin 的 Stage4 层中提取 1,024D 特征（Liu et al 2021c）。遵循以前的工作（Tian et al 2021），我们将每个视频分为 32 个片段，即 $T = 32$ 和 $K\in\left\{32,\ 16,\ 8,\ 4,\ 2,\ 1\right\}$ 。每个片段的长度为 16。我们的 MSLNet 使用 SGD 优化器进行训练，学习率为 0.001，重量衰减为 0.0005，批量大小为 64。我们将 $E_1$ 设置为 100， $E_2$ 为 400。接下来（Tian et al 2021），每个小批量由 32 个随机选择的正常和异常视频组成。在异常视频中，我们从排名前 10% 的片段中随机选取一个片段作为异常片段。在 CTE 中，我们将头（headers）的数量设置为 12，并使用内核大小为 3 的 DW Conv1D。

4.3. Shanghaitech 上的结果

我们在表 1 中报告了 ShanghaiTech（Zhong et al 2019）的结果。为了公平比较，我们使用了两个特征：one-crop 和 ten-crop。one-crop 意味着将片段裁剪到中心。Ten-crop 剪意味着将片段裁剪到中心、四个角及其它们的翻转版本（Zhong et al 2019）。在相同的骨干和裁剪下，与以前的无监督和弱监督方法相比，我们的方法在 AUC 上取得了更好的性能。例如，使用 one-crop I3D-RGB 特征，我们的模型实现了 95.45% 的 AUC，并且在相同的裁剪下优于所有其他方法，而使用 10-crop VideoSwinRGB 特征，我们的模型实现了 97.32% 的最佳 AUC。

表 1

表 1：与 ShanghaiTech 相关方法的比较。带有 † 的方法由（Feng, Hong, and Zheng 2021）或（Tian et al 2021）报告。∗ 表示我们重新训练该方法。在相同的特征下，最高的结果以粗体显示。

4.4. UCF-Crime 的结果

我们在表 2 中报告了我们在 UCF-Crime（Sultani, Chen, and Shah 2018）上的实验结果。在 I3D 和 VideoSwin 作为骨干的情况下，我们的方法在帧级 AUC 指标上优于所有以前的无监督和弱监督方法。在以 C3D 为骨干的情况下，我们的方法也取得了有竞争力的结果。例如，使用 one-crop I3D-RGB 特征，我们的模型达到了 85.30% 的 AUC 并且优于所有其他方法，并且使用 one-crop VideoSwin-RGB 特征，我们的模型达到了 85.62% 的最佳 AUC，比 RTFM 高 2.31%。

表 2

表 2：与 UCF-Crime 上的其他方法相比。带有 † 的方法由（Tian et al 2021）报道。∗ 表示我们重新训练该方法。粗体代表最好的结果。

4.5. XD- Violence 的结果

我们在表 3 中报告了关于 XD-Violence（Wu et al 2020）的结果。为了公平比较，我们使用与其他方法相同的 five-crop 特征。Five-crop 意味着将片段裁剪到中心和四个角。在相同的骨干下，我们的方法在 AP 指标上优于所有以前的弱监督 VAD 方法。例如，使用 five-crop I3D-RGB 特征，我们的模型实现了 78.28% 的 AP，优于所有其他方法，并且使用 five-crop VideoSwin-RGB 特征，我们的模型实现了 78.59% 的 AP，比 RTFM 高 0.64%。

表 3

表 3：与 XD-Violence 上的相关方法比较。带有 † 的方法由（Wu et al 2020）或（Tian et al 2021）报告。∗ 表示我们重新训练该方法。

4.6. 复杂度分析

一般来说，Transformer 的计算成本很高，但我们的方法可以实现实时监视。在一张 NVIDIA 2080 GPU 上，以 VideoSwin（Liu et al 2021c）为骨干，每秒处理 3.6 个片段（一个片段有 16 帧），即每秒 57.6 帧（FPS）；以 I3D（Carreira and Zisserman 2017）为骨干，每秒处理 6.5 个片段，即 104 FPS。我们的 MSL 网络可以达到每秒 156.4 次转发。总体而言，以 VideoSwin 为骨干的速度为 42 FPS，以 I3D 为骨干的速度为 63 FPS。

4.7. 定性分析

如图 3 所示，为了进一步评估我们的方法的性能，我们将异常分数曲线可视化。第一行显示了来自 ShanghaiTech 的三个异常视频和一个正常视频的地面实况和预测异常分数。我们可以看到我们的方法可以检测监控视频中的异常事件。我们的方法成功地预测了短期异常事件（图 3 (a)）和长期异常事件（图 3 (b)）。此外，我们的方法还可以检测视频中的多个异常事件（图 3 ©）。第二行显示了来自 UCF-Crime 的三个异常视频和一个正常视频的地面实况和预测异常分数。我们可以看到我们的方法也可以检测复杂监控场景中的异常事件。

图 3

图 3：异常评分曲线的可视化。横轴代表帧数，纵轴代表异常分数。(a)、(b)、(c)、(d)的视频来自 ShanghaiTech 数据集，(e)、(f)、(g)、(h)的视频来自 UCF-Crime 数据集。曲线表示视频帧的异常分数，粉色区域表示该区间包含异常事件，红色矩形表示异常事件的位置。最好以彩色观看。

4.8. 消融分析

我们使用 one-crop VideoSwin-RGB 特征对 ShanghaiTech 和 UCF-Crime 进行消融研究。

性能随着 $\boldsymbol{K}$ 的减小而变化。为了展示我们的自训练策略从粗粒度到细粒度的性能变化，如表 4 所示，我们报告了 $K$ 从 32 降低到 1 时的评估结果。结果表明， $K = 4$ ，预测的异常分数具有 ShanghaiTech 的最高 AUC 为 96.93%，K=8，UCF-Crime 的最高 AUC 为 85.62%。

表 4

表 4：K 从 32 降低到 1 时的性能变化，由 AUC (%) 测量。粗体代表最好的结果。

CTE带来的改进。为了评估我们的 CTE 的效果，我们将 CTE 替换为标准的 Transformer（Dosovitskiy et al 2021）。标准 Transformer 的尺寸与我们的 CTE 相同。表 5 报告了该消融实验的结果。与以标准 Transformer 为基础层的结果相比，以 CTE 为基础层的结果在 ShanghaiTech 和 UCF-Crime 数据集上的 AUC 分别增加了 0.42% 和 0.21%。

表 5

表 5：与 Transformer 相比，CTE 对 ShanghaiTech 和 UCF-Crime 带来的 AUC(%) 提升。

推理阶段分数校正的影响。如表 6 所示，我们进行了一个实验来报告推理阶段分数校正方法带来的性能提升。分数修正可以分别在 ShanghaiTech 和 UCF-Crime 上使用 one-crop 特征带来 0.95% 和 0.68% 的 AUC 改进。

表 6

表 6：通过 AUC(%) 测量的推理阶段分数校正对 ShanghaiTech 和 UCF-Crime 的影响。

5. 结论

在这项工作中，我们首先提出了一种 MSL 方法和一种基于铰链的 MSL 排名损失。然后，我们设计了一个基于 Transformer 的网络来学习视频级异常概率和片段级异常分数。在推理阶段，我们建议使用视频级异常概率来抑制片段级异常分数的波动。最后，由于 VAD 需要预测实例级异常分数，因此通过逐渐减少所选序列的长度，我们提出了一种自训练策略来细化异常分数。实验结果表明，我们的方法在三个公共数据集上取得了显着改进。

参考文献

Cai, R.; Zhang, H.; Liu, W.; Gao, S.; and Hao, Z. 2021. Appearance-Motion Memory Consistency Network for Video Anomaly Detection. In AAAI, 938–946.
Carreira, J.; and Zisserman, A. 2017. Quo Vadis, Action Recognition? A New Model and the Kinetics Dataset. In CVPR, 4724–4733.
Chollet, F. 2017. Xception: Deep Learning with Depthwise Separable Convolutions. In CVPR, 1800–1807.
d’Ascoli, S.; Touvron, H.; Leavitt, M. L.; Morcos, A. S.; Biroli, G.; and Sagun, L. 2021. ConViT: Improving Vision Transformers with Soft Convolutional Inductive Biases. In ICML, volume 139, 2286–2296.
Dosovitskiy, A.; Beyer, L.; Kolesnikov, A.; Weissenborn, D.; Zhai, X.; Unterthiner, T.; Dehghani, M.; Minderer, M.; Heigold, G.; Gelly, S.; Uszkoreit, J.; and Houlsby, N. 2021.
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale. In ICLR. Feng, J.-C.; Hong, F.-T.; and Zheng, W.-S. 2021. Mist: Multiple instance self-training framework for video anomaly detection. In CVPR, 14009–14018.
Gao, J.; Jiao, L.; Liu, F.; Yang, S.; Hou, B.; and Liu, X. 2021. Multiscale Curvelet Scattering Network. IEEE Transactions on Neural Networks and Learning Systems, 1–15.
Georgescu, M.-I.; Barbalau, A.; Ionescu, R. T.; Khan, F. S.; Popescu, M.; and Shah, M. 2021. Anomaly detection in video via self-supervised and multi-task learning. In CVPR, 12742–12752.
Gong, D.; Liu, L.; Le, V.; Saha, B.; Mansour, M. R.; Venkatesh, S.; and van den Hengel, A. 2019. Memorizing Normality to Detect Anomaly: Memory-Augmented Deep Autoencoder for Unsupervised Anomaly Detection. In ICCV, 1705–1714.
Guo, Z.; Zhao, J.; Jiao, L.; Liu, X.; and Liu, F. 2021. A Universal Quaternion Hypergraph Network for Multimodal Video Question Answering. IEEE Transactions on Multimedia, 1–1.
Hasan, M.; Choi, J.; Neumann, J.; Roy-Chowdhury, A. K.; and Davis, L. S. 2016. Learning Temporal Regularity in Video Sequences. In CVPR, 733–742.
He, C.; Shao, J.; and Sun, J. 2018. An anomaly-introduced learning method for abnormal event detection. Multimedia Tools and Applications, 77(22): 29573–29588.
Howard, A. G.; Zhu, M.; Chen, B.; Kalenichenko, D.; Wang, W.; Weyand, T.; Andreetto, M.; and Adam, H. 2017. MobileNets: Efficient Convolutional Neural Networks for Mobile Vision Applications. CoRR, abs/1704.04861.
Jeong, J.; Lee, S.; and Kwak, N. 2020. Self-Training using Selection Network for Semi-supervised Learning. In ICPRAM, 23–32.
Jiao, L.; Liang, M.; Chen, H.; Yang, S.; Liu, H.; and Cao, X. 2017. Deep Fully Convolutional Network-Based Spatial Distribution Prediction for Hyperspectral Image Classification. IEEE Transactions on Geoscience and Remote Sensing, 55(10): 5585–5599.
Jiao, L.; and Liu, F. 2016. Wishart Deep Stacking Network for Fast POLSAR Image Classification. IEEE Transactions on Image Processing, 25(7): 3273–3286.
Jiao, L.; Ronghua, S.; Fang, L.; and Weitong, Z. 2020. Brain and Nature-Inspired Learning, Computation and Recognition.
Jiao, L.; Zhang, S.; Li, L.; Liu, F.; and Ma, W. 2018. A modified convolutional neural network for face sketch synthesis. Pattern Recognition, 76: 125–136.
Karpathy, A.; Toderici, G.; Shetty, S.; Leung, T.; Sukthankar, R.; and Li, F. 2014. Large-Scale Video Classification with Convolutional Neural Networks. In CVPR, 1725–1732.
Kay, W.; Carreira, J.; Simonyan, K.; Zhang, B.; Hillier, C.; Vijayanarasimhan, S.; Viola, F.; Green, T.; Back, T.; Natsev, P.; Suleyman, M.; and Zisserman, A. 2017. The Kinetics Human Action Video Dataset. CoRR, abs/1705.06950.
Li, W.; Mahadevan, V.; and Vasconcelos, N. 2014. Anomaly Detection and Localization in Crowded Scenes. IEEE Transactions on Pattern Analysis and Machine Intelligence, 36(1): 18–32.
Li, Y.; Xing, R.; Jiao, L.; Chen, Y.; Chai, Y.; Marturi, N.; and Shang, R. 2019. Semi-Supervised PolSAR Image Classification Based on Self-Training and Superpixels. Remote. Sens., 11(16): 1933.
Li, Y.; Zhang, K.; Cao, J.; Timofte, R.; and Gool, L. V. 2021. LocalViT: Bringing Locality to Vision Transformers. CoRR, abs/2104.05707. Lin, L.; Liu, F.; Jiao, L.; Yang, S.; and Hao, H. 2017.
The Overcomplete Dictionary-Based Directional Estimation Model and Nonconvex Reconstruction Methods. IEEE Transactions on Cybernetics, 1042–1053.
Liu, K.; and Ma, H. 2019. Exploring Background-Bias for Anomaly Detection in Surveillance Videos. In Proceedings of the 27th ACM International Conference on Multimedia, MM ’19, 14901499.
Liu, X.; Li, K.; Zhou, M.; and Xiong, Z. 2011. Enhancing Semantic Role Labeling for Tweets Using Self-Training. In AAAI.
Liu, Y.; Sun, G.; Qiu, Y.; Zhang, L.; Chhatkuli, A.; and Gool, L. V. 2021a. Transformer in Convolutional Neural Networks. CoRR, abs/2106.03180.
Liu, Z.; Lin, Y.; Cao, Y.; Hu, H.; Wei, Y.; Zhang, Z.; Lin, S.; and Guo, B. 2021b. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows. CoRR, abs/2103.14030.
Liu, Z.; Ning, J.; Cao, Y.; Wei, Y.; Zhang, Z.; Lin, S.; and Hu, H. 2021c. Video Swin Transformer. CoRR, abs/2106.13230.
Luo, W.; Liu, W.; and Gao, S. 2017. A Revisit of Sparse Coding Based Anomaly Detection in Stacked RNN Framework. In ICCV, 341–349.
Pang, G.; Yan, C.; Shen, C.; van den Hengel, A.; and Bai, X. 2020. Self-Trained Deep Ordinal Regression for End-to-End Video Anomaly Detection. In CVPR, 12170–12179.
Qian, X.; Liu, F.; Jiao, L.; Zhang, X.; Guo, Y.; Liu, X.; and Cui, Y. 2021. Ridgelet-Nets With Speckle Reduction Regularization for SAR Image Scene Classification. IEEE Transactions on Geoscience and Remote Sensing, 59(11): 9290– 9306.
Rosenberg, C.; Hebert, M.; and Schneiderman, H. 2005. Semi-Supervised Self-Training of Object Detection Models. In WACV/MOTION, 29–36.
Sultani, W.; Chen, C.; and Shah, M. 2018. Real-World Anomaly Detection in Surveillance Videos. In CVPR, 6479– 6488.
Sun, C.; Jia, Y.; Hu, Y.; and Wu, Y. 2020. Scene-Aware Context Reasoning for Unsupervised Abnormal Event Detection in Videos. In ACM Multimedia, 184–192.
Tai, K. S.; Bailis, P.; and Valiant, G. 2021. Sinkhorn Label Allocation: Semi-Supervised Classification via Annealed Self-Training. In ICML, volume 139, 10065–10075.
Tanha, J.; van Someren, M.; and Afsarmanesh, H. 2017. Semi-supervised self-training for decision tree classifiers. Int. J. Mach. Learn. Cybern., 8(1): 355–370.
Tao, Y.; Zhang, D.; Cheng, S.; and Tang, X. 2018. Improving semi-supervised self-training with embedded manifold transduction. Trans. Inst. Meas. Control, 40(2): 363–374.
Tian, Y.; Pang, G.; Chen, Y.; Singh, R.; Verjans, J. W.; and Carneiro, G. 2021. Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning. CoRR, abs/2101.10030.
Touvron, H.; Cord, M.; Douze, M.; Massa, F.; Sablayrolles, A.; and Jegou, H. 2021. Training data-efficient image trans- ´ formers & distillation through attention. In ICML, volume 139, 10347–10357.
Tran, D.; Bourdev, L. D.; Fergus, R.; Torresani, L.; and Paluri, M. 2015. Learning Spatiotemporal Features with 3D Convolutional Networks. In ICCV, 4489–4497.
Vaswani, A.; Shazeer, N.; Parmar, N.; Uszkoreit, J.; Jones, L.; Gomez, A. N.; Kaiser, L.; and Polosukhin, I. 2017. Attention is All you Need. In NIPS, 5998–6008.
Wan, B.; Fang, Y.; Xia, X.; and Mei, J. 2020. Weakly supervised video anomaly detection via center-guided discriminative learning. In ICME, 1–6. IEEE.
Wan, B.; Jiang, W.; Fang, Y.; Luo, Z.; and Ding, G. 2021. Anomaly detection in video sequences: A benchmark and computational model. IET Image Processing.
Wang, J.; and Cherian, A. 2019. GODS: Generalized OneClass Discriminative Subspaces for Anomaly Detection. In ICCV, 8200–8210.
Wang, Z.; Zou, Y.; and Zhang, Z. 2020. Cluster Attention Contrast for Video Anomaly Detection. In ACM Multimedia, 2463–2471.
Wu, H.; Xiao, B.; Codella, N.; Liu, M.; Dai, X.; Yuan, L.; and Zhang, L. 2021. CvT: Introducing Convolutions to Vision Transformers. CoRR, abs/2103.15808.
Wu, P.; Liu, j.; Shi, Y.; Sun, Y.; Shao, F.; Wu, Z.; and Yang, Z. 2020. Not only Look, but also Listen: Learning Multimodal Violence Detection under Weak Supervision. In ECCV.
Xu, W.; Xu, Y.; Chang, T. A.; and Tu, Z. 2021. CoScale Conv-Attentional Image Transformers. CoRR, abs/2104.06399.
Yan, H.; Li, Z.; Li, W.; Wang, C.; Wu, M.; and Zhang, C. 2021. ConTNet: Why not use convolution and transformer at the same time? CoRR, abs/2104.13497.
Yu, F.; Zhang, M.; Dong, H.; Hu, S.; Dong, B.; and Zhang, L. 2021. DAST: Unsupervised Domain Adaptation in Semantic Segmentation Based on Discriminator Attention and SelfTraining. In AAAI, 10754–10762.
Zaheer, M. Z.; Mahmood, A.; Astrid, M.; and Lee, S. 2020. CLAWS: Clustering Assisted Weakly Supervised Learning with Normalcy Suppression for Anomalous Event Detection. In ECCV, volume 12367, 358–376.
Zhang, J.; Qing, L.; and Miao, J. 2019. Temporal Convolutional Network with Complementary Inner Bag Loss for Weakly Supervised Anomaly Detection. In ICIP, 4030– 4034.
Zhang, Q.; and Yang, Y. 2021. ResT: An Efficient Transformer for Visual Recognition. CoRR, abs/2105.13677.
Zhang, Z.; Lu, X.; Cao, G.; Yang, Y.; Jiao, L.; and Liu, F. 2021. ViT-YOLO:Transformer-Based YOLO for Object Detection. In ICCVW, 2799–2808.
Zhao, B.; Fei-Fei, L.; and Xing, E. P. 2011. Online detection of unusual events in videos via dynamic sparse coding. In CVPR, 3313–3320.
Zheng, H.; Zhang, Y.; Yang, L.; Wang, C.; and Chen, D. Z. 2020. An Annotation Sparsification Strategy for 3D Medical Image Segmentation via Representative Selection and SelfTraining. In AAAI, 6925–6932.
Zhong, J.; Li, N.; Kong, W.; Liu, S.; Li, T. H.; and Li, G. 2019. Graph Convolutional Label Noise Cleaner: Train a Plug-And-Play Action Classifier for Anomaly Detection. In CVPR, 1237–1246. Zhu, M.; Jiao, L.; Liu, F.; Yang, S.; and Wang, J. 2021. Residual SpectralSpatial Attention Network for Hyperspectral Image Classification. IEEE Transactions on Geoscience and Remote Sensing, 59(1): 449–462.
Zhu, Y.; and Newsam, S. D. 2019. Motion-Aware Feature for Improved Video Anomaly Detection. In BMVC, 270.