【无监督视频异常检测】2022-CVPR-用于无监督视频异常检测的生成合作学习

念啊啊啊啊丶

已于 2024-09-24 21:35:41 修改

阅读量193

点赞数

分类专栏：无监督视频异常检测文章标签：深度学习人工智能机器学习计算机视觉神经网络

于 2023-04-20 17:10:20 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/130246157

版权

无监督视频异常检测专栏收录该内容

2 篇文章

订阅专栏

2022-CVPR-Generative Cooperative Learning for Unsupervised Video Anomaly Detection

用于无监督视频异常检测的生成合作学习

用于无监督视频异常检测的生成合作学习

论文地址

摘要

视频异常检测在弱监督和一类分类（OCC）设置中得到了很好的研究。然而，无监督视频异常检测方法非常稀少，可能是因为异常发生的频率较低且通常定义不明确，再加上缺乏地面实况监督，可能会对学习算法的性能产生不利影响。这个问题具有挑战性，但也是有益的，因为它可以完全消除获取费力的标签的成本，并使此类系统无需人工干预即可部署。为此，我们提出了一种用于视频异常检测的新型无监督生成合作学习（GCL）方法，该方法利用异常的低频率在生成器和鉴别器之间建立交叉监督。本质上，两个网络都以合作的方式进行训练，从而允许无监督学习。我们对两个大型视频异常检测数据集 UCF-Crime 和 ShanghaiTech 进行了广泛的实验。对现有最先进的无监督和 OCC 方法的持续改进证实了我们方法的有效性。

1. 引言

在现实世界中，基于学习的异常检测任务极具挑战性，主要是因为此类事件很少发生。由于这些事件不受约束的性质，这一挑战进一步加剧。因此，获得足够的异常示例非常麻烦，而我们可以有把握地假设永远不会收集到详尽的集合，特别是训练完全监督模型所需的集合。为了使学习易于处理，异常通常被归因于与正常数据的显著偏差。因此，一种流行的异常检测方法是训练一个单类分类器，该分类器仅使用正常训练示例 [14、17、25、28、41、42、45、47、60、64、66、72]（图 1）。一类分类（OCC）方法的一个明显缺点是正常训练数据的可用性有限，无法捕获所有正常变化 [9]。此外，OCC 方法通常不适用于视频监控中常见的具有不同类别和广泛动态情况的复杂问题。在这种情况下，看不见的正常活动可能会显着偏离学习到的正常表示，从而被预测为异常，从而导致误报 [14、67]。

最近，弱监督异常检测方法获得了极大的普及 [24、26、34、46、56、63]，通过使用视频级标签 [50、65、67、69、74]。具体来说，如果视频的某些内容异常，则将视频标记为异常；如果所有内容正常，则标记为正常，需要对整个视频进行人工检查。尽管此类标签相对具有成本效益，但在许多实际应用中仍然不切实际。如果不产生标签成本，可以利用大量视频数据（特别是原始素材）进行异常检测训练。不幸的是，据我们所知，几乎没有任何值得注意的尝试利用未标记的训练数据进行视频异常检测。

在这项工作中，我们探索了视频异常检测的无监督模式，这肯定比完全监督、弱监督或一类监督更具挑战性（图 1）。然而，由于假设最少，它也更有价值，因此将鼓励开发新颖和更实用的算法。请注意，文献中的术语 “无监督” 通常指的是 OCC 方法，它假设所有正常的训练数据 [11、37、64、66]。然而，它使整体学习问题受到部分监督 [19]。在处理视频中的无监督异常检测时，我们利用了一个简单的事实，即与静止图像相比，视频信息丰富，异常事件的发生频率低于正常情况 [8、29、51、67]，并试图以结构化的方式利用这些领域知识。

图 1

图 1. 视频异常检测的不同训练模式：(a) 完全监督模式需要训练数据中的帧级正常/异常标签。(b) 一类分类 (OCC) 只需要正常的训练数据。(c) 弱监督模式需要视频级别的正常/异常标签。(d) 无监督模式不需要训练数据标签。

为此，我们提出了一种生成合作学习（GCL）方法，该方法将未标记的视频作为输入，并学习预测帧级异常分数预测作为输出。拟议的 GCL 包括两个关键组件，一个生成器和一个鉴别器，它们以相互合作的方式进行训练，以提高异常检测性能。生成器不仅重建了大量可用的正常表示，而且还通过使用一种新颖的负学习（NL）方法扭曲了可能的高置信度异常表示。相反，鉴别器会估计实例异常的概率。对于无监督异常检测，我们从生成器创建伪标签并使用它们来训练鉴别器。在接下来的步骤中，我们从经过训练的鉴别器版本创建伪标签，然后使用它们来改进生成器。整个系统以交替方式进行训练，在每次迭代中，生成器和鉴别器都通过相互合作得到改进。

贡献。我们提出了一种异常检测方法，能够在复杂的监视场景中定位异常事件，而无需标记训练数据。据我们所知，我们的方法是第一次严格尝试以完全无监督的模式处理监控视频异常检测。提出了一种新颖的生成合作学习（GCL）框架，该框架包括生成器、鉴别器和交叉监督。通过使用一种新颖的负学习方法，生成器网络被迫不重建异常。对两个大型复杂异常事件检测数据集 UCF-Crime 和 ShanghaiTech 的大量实验表明，我们的方法提供了比基线和几种现有的无监督以及 OCC 方法明显的增益。

2. 相关工作

异常检测是图像 [7、16、39] 和视频 [49、50、64、67、69] 领域中广泛研究的问题。我们回顾了视频异常检测和相互学习策略的不同监督模式。

一类分类（OCC）的异常检测。OCC 方法已在广泛的异常检测问题中发挥作用，包括医疗诊断 [58]、网络安全 [11]、监视安全系统 [20、29、32、64] 和工业检查 [5]。其中一些方法使用手工制作的特征 [3、31、38、55、71]，而其他方法则使用使用预训练模型 [42、47] 提取的深层特征。随着生成模型的出现，许多方法提出了此类网络的变体来学习正常的数据表示 [12、35、36、43–45、61、62、64]。OCC 方法发现避免异常测试输入的良好重建具有挑战性。这个问题归因于这样一个事实，即由于 OCC 方法在训练时仅使用正常类数据，因此可能会实现无效的分类器边界，该边界仅限于封闭正常数据，同时排除异常 [64]。为了解决这一局限性，一些研究人员最近提出了伪监督方法，其中使用正常训练数据生成伪异常实例 [1、64]。

弱监督（WS）异常检测。视频级二元标签用于训练能够预测帧级异常分数的 WS 分类器 [40、50、52、65、67、69、74]。视频级标签的提供方式是，正常标记的视频是完全正常的，而异常标记的视频包含正常和异常内容，没有任何关于时间位置的信息（图 1）。

无监督异常检测。使用未标记训练数据的异常检测方法在文献中很少见。根据图 1 所示的命名法，文献中的大多数无监督方法实际上都属于 OCC 的范畴。例如，MVTecAD [5] 基准确保训练数据仅是正常的，因此其评估协议是 OCC，继承该假设的方法本质上也是一类分类器 [6、12]。与这些算法相比，我们提出的 GCL 方法能够在不假设任何常态的情况下从未标记的训练数据中学习。视频形式的训练数据符合异常检测的几个重要属性，例如，异常事件的发生频率低于正常事件，事件通常在时间上是一致的。我们从这些线索中获得动机，以完全无人监督的方式进行训练。

师生网络。我们提出的 GCL 与用于知识蒸馏的教师学生（TS）框架有一些相似之处 [18]。GCL 不同于 TS 框架主要是因为它的目的不是知识蒸馏。此外，我们的生成器会生成噪声标签，而我们的鉴别器对噪声相对鲁棒，会清除这些标签，这在 TS 框架中并非如此。

相互学习（ML）。GCL 框架也与 ML 算法有相似之处 [73]。然而，与 ML 算法使用的监督学习相比，GCL 的两个组成部分学习不同类型的信息，并通过交叉监督进行训练。进一步在 GCL 中，每个网络的输出通过阈值过程以产生伪标签。在 ML 中，队列学习匹配每个成员的分布，而在 GCL 中，每个成员都试图从另一个成员生成的伪标签中学习。使用未标记训练数据的无监督模式下队列的相互学习尚未探索。

双重学习。这也是一种相关的方法，其中两种语言翻译模型交互式地相互教学 [15]。然而，外部监督是使用预训练的无条件语言专家模型来检查翻译质量的。这样，不同的模型有不同的学习任务，而在我们提出的 GCL 方法中，学习任务是相同的。先前已经提出合作学习 [4] 的另一种变体，以针对跨不同领域的同一任务联合学习多个模型。例如，对象识别是通过在 RGB 图像上训练一个模型和在深度图像上训练另一个模型来制定的，然后传达域不变对象属性。然而，在我们的 GCL 方法中，两种模型都处理同一领域中的同一任务。

3. 方法

我们提出的用于异常检测（GCL）的生成合作学习方法包括一个特征提取器、一个生成器网络、一个鉴别器网络和两个伪标签生成器。图 2 显示了整体架构。接下来讨论每个组件。

图 2

图 2. 建议的生成合作学习（GCL）算法引入交叉监督来训练生成器 G 和鉴别器 D。G 生成的伪标签用于计算 D 损失，同样，D 生成的伪标签是用于计算 G 的损失。G 和 D 都是从未标记的训练数据中迭代训练的，用于异常事件检测。

3.1. 训练数据组织

为了最小化计算复杂度并减少 GCL 的训练时间，类似于现有的 SOTA [50、52、65、67、69、74]，我们利用深度特征提取器将视频数据转换为紧凑特征。所有输入视频都被排列成片段，然后提取其特征。此外，这些特征被随机排列成批次。在每次迭代中，使用随机选择的批次来训练 GCL 模型（图 2）。形式上，给定一个包含 $n$ 个视频的训练数据集，每个视频都被分成 $p$ 帧的非重叠片段 $S\left(i,j\right)$ ，其中 $i\in\left[1,\ n\right]$ 是视频索引， $j\in\left[1,\ m_i\right]$ 是段索引。段大小 $p$ 在数据集的所有训练和测试视频中保持相同。对于每个 $S\left(i,j\right)$ ，特征向量 $f(i,j)\in\mathbb{R}^d$ 使用特征提取器 $\mathcal{E}\left(\cdot\right)$ 计算为 $f(i,j)=\mathcal{E}\left(S\left(i,j\right)\right)$ 。

在现有的弱监督异常检测方法中，每次训练迭代都是在一个或多个完整视频上进行的 [50、74]。最近，CLAWS Net [67] 提出提取几批时间一致的特征，然后将每批随机输入到网络中。这种配置用于最小化连续批次之间的相关性。在这些现有方法中，重要的是在批处理或视频级别维护时间顺序。然而，在所提出的 GCL 方法中，我们随机化了输入特征的顺序，从而消除了 intra-batch 和 inter-batch 相关性。

3.2. 生成合作学习

我们提出的用于异常检测的生成合作学习（GCL）方法由作为自动编码器（AE）的生成器 $\mathcal{G}$ 和作为全连接（FC）分类器的鉴别器 $\mathcal{D}$ 组成。这两种模型都以合作方式进行训练，不使用任何数据标签。更具体地说，我们既不使用单类分类（OCC）方法 [12、37、54] 中的正常类标签，也不使用弱监督异常检测系统 [50、67、69、74] 中使用的二元标签。正如第 1 节中所讨论的，使用 AE 背后的直觉是此类模型可以在某种程度上捕获总体主导数据趋势 [12]。另一方面，已知用作鉴别器的 FC 分类网络在提供有监督的（尽管有噪声的）训练时是有效的 [67]。为了进行训练，首先使用 $\mathcal{G}$ 创建的伪标签来训练 $\mathcal{D}$ 。下一步，使用 $\mathcal{D}$ 创建的伪标签来改进 $\mathcal{G}$ 。因此，这两个模型中的每一个都是通过使用另一个模型以替代训练方式创建的标签来训练的。训练配置旨在通过训练迭代改进伪标记，从而提高整体异常检测性能。接下来将讨论特定的体系结构细节和几种设计选择。

3.2.1. 生成器网络

$\mathcal{G}$ 将特征作为输入并生成这些特征的重建作为输出。通常， $\mathcal{G}$ 是通过最小化重建损失 $\mathcal{L}_r$ 来训练的：

公式 1

其中 $f_{i,\ j}^q$ 是输入到 $\mathcal{G}$ 的特征向量， ${\hat{f}}_{i,\ j}^q$ 是相应的重构向量， $b$ 是批量大小。

3.2.2. 来自生成器的伪标签

在我们提出的协作学习中，创建来自 $\mathcal{G}$ 的伪标签来训练 $\mathcal{D}$ 。通过观察每个实例 $q$ 在批次上的重建损失 $\mathcal{L}_G^q$ 的分布来创建标签。主要思想是将导致较高损失值的特征向量视为异常，将产生较小损失值的特征向量视为正常。为了实现这种直觉，可以考虑使用阈值 $\mathcal{L}_G^{th}$ 作为：

公式 2

我们通过将具有最大重建误差的固定百分比的样本视为异常，采用了一种简单的方法来选择第 $\mathcal{L}_G^{th}$ 。在 $\mathcal{L}_G^q$ 直方图中，我们根据经验观察到朝向最小误差的较大峰值和朝向最大误差的较小峰值。由于类边界通常落在低密度区域，误差直方图也是选择合适的 $\mathcal{L}_G^{th}$ 的有效工具。补充文件中给出了对 $\mathcal{L}_G^{th}$ 选择的不同替代方案的分析。

3.2.3. 鉴别器网络

用作鉴别器 $\mathcal{D}$ 的二元分类网络使用来自 $\mathcal{G}$ 的伪注释进行训练，方法是将批次 $b$ 上的二元交叉熵损失最小化为：

公式 3

其中 $\mathcal{L}_G^q\in\left\{0,\ 1\right\}$ 是 $\mathcal{G}$ 生成的伪标签， ${\hat{l}}_{i,\ j}^q$ 是输入特征向量 $f_{i,\ j}^q$ 时 $\mathcal{D}$ 的输出。

3.2.4. 鉴别器的伪标签

来自 $\mathcal{D}$ 的伪标签被用来提高 $\mathcal{G}$ 的重建辨别能力。 $\mathcal{D}$ 的输出 ${\hat{p}}_{i,\ j}^q$ 是特征向量 $f_{i,\ j}^q$ 异常的概率。因此，通过对 $\mathcal{D}$ 的输出 ${\hat{p}}_{i,\ j}^q$ 使用阈值机制，将获得更高概率的特征视为异常。 $\mathcal{D}$ 生成的注释然后用于在下一次迭代中微调 $\mathcal{G}$ 。

公式 4

其中阈值 $\mathcal{L}_D^{th}$ 的计算方式与阈值 $\mathcal{L}_G^{th}$ 的计算方式相同。

3.2.5. 生成器网络的负向学习

通过使用负学习（NL），使用来自 $\mathcal{D}$ 的伪标签对 $\mathcal{G}$ 进行训练。为了增加正常输入和异常输入重建之间的区别，鼓励 $\mathcal{G}$ 对具有异常伪标签的样本进行不良重建，而具有正常伪标签的样本旨在像往常一样以最小误差重建。

图 3

图 3. GCL 中的负学习：G 被限制为不使用伪重建目标 (PRT) 学习异常重建。基于 D 产生的伪标签，为异常输入生成 PRT，而正常输入则使用正常目标来指导 G 的训练。

文献中已经探索了 NL 的一些变体。例如，Munawar 等人 [33] 和 Astrid 等人 [1] 使整批已知异常输入的损失设为负。但是，此配置需要对整个数据集及其标签有先验知识。在所提出的 GCL 方法中，伪标签是随着训练的进行而迭代生成的，因此它可能会在同一批次中同时遇到正常样本和异常样本。此外，我们没有让损失为负，而是通过使用伪重建目标强制异常样本进行较差的重建。因此，如图 3 所示，对于每个被 $\mathcal{D}$ 伪标记为异常的特征向量，其重建目标被替换为不同的特征向量。为了广泛探索这个概念，我们提出了以下不同类型的伪目标：1）All Ones Target：将原始重建目标替换为相似的全 1 维向量。2）Random Normal Target：将原来的重建目标替换为任意选择的法线标记特征向量。3）Random Gaussian Noise Target：原始重建目标通过加入高斯噪声进行扰动。4）No Negative Learning：没有负学习应用于 $\mathcal{G}$ 。相反，只有伪标记为正常的特征向量用于 $\mathcal{G}$ 的训练。图 5 显示了对不同伪目标的广泛分析。我们根据经验观察到 “那些” 作为伪目标产生更具辨别力的重建能力，从而更好地区分正常和异常输入。方程式给出的损失函数（1）被修改为包括负学习：

公式 5

其中伪目标 $t_q$ 定义为：

公式 6

3.3. 自监督预训练

所提出的 GCL 通过 $\mathcal{G}$ 和 $\mathcal{D}$ 的合作使用未标记的视频进行训练。由于异常检测是一个定义不明确的问题，缺乏约束可能会影响收敛，系统可能会陷入局部最小值。为了提高收敛性，我们探索通过对 $\mathcal{G}$ 和 $\mathcal{D}$ 进行预训练来启动训练过程。我们凭经验观察到使用预训练的 $\mathcal{G}$ （基于等式（1））有利于学习系统的整体稳定性，它还提高了系统的收敛性和性能（第 4 节）。

众所周知，自动编码器可以捕获训练数据的主要表示 [12、64]。尽管训练数据中异常稀疏且正常特征丰富，但我们通过实验观察到，简单地利用所有训练数据来预训练 $\mathcal{G}$ 可能无法提供有效的启动。利用视频中的事件按时间顺序发生并且异常帧通常比正常帧更具有事件性的事实，我们利用连续特征向量之间的时间差异作为估计器来初始清理训练数据集以进行 $\mathcal{G}$ 的预训练。也就是说，如果 $f_{i,\ j}^{t+1}-f_{i,\ j}^t||_2≤D_{th}$ ，特征向量 $f_{i,\ j}^{t+1}$ 将仅用于预训练，其中上标 $t$ 和 $t + 1$ 表示视频中特征的时间顺序， $D_{th}$ 是阈值。这种方法并不能保证完全消除异常事件，但是它会清理数据以有效初始化 $\mathcal{G}$ 以启动训练。一旦 $\mathcal{G}$ 经过预训练，它就被用来生成伪标签，然后被用来预训练鉴别器。在这一步中， $\mathcal{G}$ 的角色类似于一个糟糕的老师，因为生成的伪标签非常嘈杂，而 $\mathcal{D}$ 的角色就像一个高效的学生，因为即使有嘈杂的标签，它也能更好地区分正常和异常特征。在接下来的步骤中，预训练的 $\mathcal{G}$ 和 $\mathcal{D}$ 都被插入到我们的协作学习循环中。

3.4. 异常评分

为了在测试时计算最终的异常分数，有几种配置是可能的，即使用 $\mathcal{G}$ 的重建误差或 $\mathcal{D}$ 的预测分数。我们通过实验观察到 $\mathcal{G}$ 仍然相对糟糕，而 $\mathcal{D}$ 在连续的训练迭代中仍然有效。因此，为简单起见，除非另有说明，否则本工作中报告的所有结果均使用 $\mathcal{D}$ 的预测进行计算。

4. 实验

在本节中，我们首先提供实验细节，然后与现有的 SOTA 方法进行比较，最后研究我们的 GCL 方法的不同组成部分。

数据集。UCF-Crime（UCFC）数据集包含 13 种不同类别的现实世界异常事件，这些事件由 CCTV 监控摄像机在 128 小时内捕获 [50]。由于不受约束的背景，该数据集很复杂。训练分割包含 810 个异常视频和 800 个正常视频，而测试分割包含 140 个异常视频和 150 个正常视频。在训练拆分中，提供视频级标签，而在测试拆分中，提供帧级二元标签。在我们的无监督设置中，我们丢弃训练拆分标签并使用未标记的训练视频训练建议的 GCL。

ShanghaiTech 包含在大学校园内 13 个不同地点捕获的分阶段异常事件，涵盖 437 个视频。该数据集最初是为 OCC 提出的，仅提供用于训练的普通视频。后来，Zhong 等人 [74] 重组了这个数据集，以促进弱监督算法的训练。在训练和测试分组中混合了正常和异常视频。新的训练分割包含 63 个异常视频和 175 个正常视频，而新的测试分割包含 44 个异常视频和 155 个正常视频。为了训练我们提出的 GCL，我们遵循后者的分割进行训练和测试，而不使用训练分割视频标签。

评估措施。遵循现有方法 [14、27、50、74]，我们使用 ROC 曲线下面积（AUC）进行评估和比较。AUC 是根据两个数据集中测试视频的帧级注释计算的。

实施细节。为了展示合作学习概念的真正本质，我们选择了相当简单的架构，没有任何附加功能，作为我们的 $\mathcal{G}$ 和 $\mathcal{D}$ 网络。 $\mathcal{G}$ 和 $\mathcal{D}$ 的架构设置为 FC [2048, 1024, 512, 256, 512, 1024, 2048] 和 FC [2048, 512, 32, 1]。我们使用 RMSprop 优化器训练两个网络，学习率为 0.00002，动量为 0.60，训练数据为 15 个时期，批量大小为 8192。伪标签生成的阈值是数据驱动的。对于 $\mathcal{G}$ 伪标签 $\mathcal{L}_G^{th}=\mu_R+\sigma_R$ ，其中 $\mu_R$ 和 $\sigma_R$ 是方程式（1）对于每批次给出的重建误差的均值和标准差。对于 $\mathcal{L}_D^{th}=\mu_P+\sigma_P$ ，其中 $\mu_P$ 和 $\sigma_P$ 是 $\mathcal{D}$ 为每个批次生成的概率 ${\hat{p}}_{i,\ j}^q$ 的均值和标准差。 $D_{th}=0.70$ 值用于无监督预训练。作为特征提取器，我们在默认模式下使用 Hara 等人 [13] 提出的流行框架 ResNext3d。用于特征提取的片段大小 $p$ 设置为 16 个非重叠帧。所有实验均在 NVIDIA RTX 2070 配备 Intel Core i7, 8th gen 和 16GB RAM 上进行。

4.1. 与最先进技术（SOTA）的比较

所提出的 GCL 方法以无监督方式进行训练，不使用任何类型的注释。没有预训练的 GCL，即 GCL_B，被认为是基线。此外，带有预训练的 GCL、GCL_PT、GCL 与基于 OCC 的预训练自动编码器相结合、GCL_OCC 和 GCL 弱监督、GCL_WS 也在 UCFC 和 ShanghaiTech 数据集上进行了训练和评估。

如表 1 所示，在 UCFC 数据集上，拟议的 GCLB 获得了 68.17% 的总体 AUC，比以无监督方式在包括正常和异常训练样本在内的完整训练数据上训练的 Autoecnoder（AE_AllData）高 11.85%。图 4(a) 中在重建上绘制的直方图还提供了 AE_AllData 无法学习判别重建的见解。同样在 GCL 中， $\mathcal{D}$ （图 4(c)）的辨别能力比 $\mathcal{G}$ （图 4(b)）增强得多。kim 等人 [21] 的实验是针对未标记训练数据的方法的重新实现进行的。

图 4

图 4. 在 UCFcrime 数据集的测试拆分上预测的分数分布（a）在所有训练数据上训练的 AE，（b）在 GCLB 中训练的 G，和（c）在 GCLB 中训练的 D。尽管 G 和 D 是合作训练的，但 D 对噪声更稳健，在正常和异常示例之间表现出更好的区分度。

GCL_PT 是提议的 GCL 版本，带有以无监督方式预训练的自动编码器。在这个实验中，获得了 71.04% 的 AUC 性能，比基线 GCL_B 好 2.87%。这两种方法也在图 10 中使用多个随机种子初始化进行了比较，GCL_PT 展示了一致的性能提升。表 1 还表明，所提出的 GCL_PT 优于所有现有的基于单类分类的异常检测方法。尽管在训练 GCL_PT 时没有使用带标签的监督。相比之下，OCC 方法使用干净的正常类进行训练，与我们基于 GCL 的无监督训练相比，它提供了额外的信息。

表 1

表 1. 在 UCF-Crime（UCFC）和 ShanghaiTech（STech）数据集上与现有最先进方法的性能比较。我们根据训练中使用的监督将方法分为三类。最佳结果以粗体显示。

在另一个实验中，自动编码器仅在训练数据的正常类别上进行预训练，这使得该设置与单类分类器具有可比性。这种以普通类标签形式提供的额外信息方案，在表 1 中称为 GCL_OCC，在 UCFC 上获得了 74.20% 的改进性能，这明显优于所有现有的最先进的 OCC 方法。有趣的是，GCL_OCC 产生的性能与 Sultani 等人 [50] 提出的利用视频级标签进行训练的方法相当。

虽然 GCL 的目标是无监督合作学习，但我们也将其扩展到包含弱监督。此版本的结果在表 1 中报告为 GCL_WS。尽管使用相当简单的 $\mathcal{G}$ 和 $\mathcal{D}$ 网络，没有任何花哨的功能，但 GCL_WS 获得了与几种现有的弱监督学习方法相当的结果。

我们还在 ShanghaiTech 数据集 [29] 上评估了我们的方法，并将结果与表 1 中现有的 SOTA 方法进行了比较。在这个数据集上，我们提出的 GCLB 获得了 72.41% AUC，比 AE_AllData 好 10% 以上，显示了基线方法。GCLPT 获得了 78.93% 的 AUC，比 GCL_B 高 6.5%，证明了无监督预训练对于快速启动的重要性。尽管没有监督，但 GCL_PT 优于所有现有的 OCC 方法。

4.2. 消融研究与分析

接下来将讨论不同组件的分析、设计选择、定性结果和包含的监督。

组件式消融研究。关于 UCFC 的表 2 中报告了具有各种设计选择的 GCL 的详细消融分析。可以看出，与在 OCC 设置 AE_OCC 中使用干净的正常数据训练的自动编码器相比，在没有任何监督 AE_AllData 的情况下使用所有训练数据集训练的自动编码器产生了 56.32% 的显着低性能（65.76%）。使用我们提出的基于帧时间差的无监督预处理训练自动编码器 AE_TD 使性能更接近 AE_OCC ，这证明了我们的预处理方法的有效性。使用负学习使 GCL_B 的整体性能比没有负学习 GCL_w/oNL 的对应训练提高 3.94%。我们完整的无监督系统 GCL_PT 利用负学习和无监督预训练将整体性能提高到 71.04%。此外，在 GCL_OCC 中添加一级监督通过证明 AUC 为 74.20% 进一步提高了这一性能。这也再次验证了我们关于 OCC 在完全无监督环境下可能具有的整体优势的说法，使它们不同于无监督方法。

表 2

表 2. GCL 方法的消融分析：具有不同监督级别的不同组件的性能。

评估消极学习（NL）方法。在 UCFC 上的 GCL 框架中使用和不使用 NL 进行实验。对于 GCL_B 中 NL 的情况，三个不同伪目标的性能，“ones” 代表所有目标，“replace” 为随机法线，“Gaussian” 为 $\mu=0$ 和 $\sigma={1.5,\ 6.0}$ （第 3.2.5 节）在图 5 中进行了比较。我们观察到 “ones” 伪目标比其他方法效果更好。 $\sigma=1.5$ 的高斯扰动与没有任何 NL（GCL_w/oNL）的模型表现几乎相同。当 $\sigma=6$ 时，性能有所提高，但仍低于 “ones”。这可能是由于固定的伪目标有助于 GCL 框架的一致学习，从而产生更好的辨别力。

图 5

图 5. GCL 中 G 和 D 的收敛，有/没有负学习（NL）。我们在 NL 中测试了不同的伪重建目标。对于“ones”NL 目标观察到最佳性能。

为了进一步探讨 NL 的重要性，我们提供了由 AE_AllData、GCL_w/oNL 和 GCL_B 生成的重建的 tSNE 可视化，如图 6 所示。两种 AE，无论是否有 NL，都表现出优于 AE_AllData 的辨别力。此外，GCLB（图 6(c)），异常特征形成一个明显的簇，表明使用 NL 比不使用 NL 更有效。

图 6

图 6. tSNE [53] 重建的可视化。使用 GCLB，大多数异常样本（红色）与正常样本（绿色）分开聚类，这是提供伪重建目标的潜在需求。

定性分析。我们的 GCL 方法的逐步演变如图 7 所示。随着训练的进行，GCL_B 学会以完全无监督的方式预测视频中的真实异常部分。图 8 显示了我们的 GCL_PT 在从 UCFC 拍摄的四个不同视频上预测的最终异常分数。在图 8(d) 中，一些正常部分也被预测为异常。对该视频的检查表明，开始和结束帧包含浮动文本，这在训练数据中是不寻常的。

图 7

图 7. 训练期间 GCLB 框架中帧级异常分数的演变。请注意，我们的无监督方法成功地在异常部分产生了显着更高的分数，而在正常部分产生了较低的分数。Anomaly ground truth 用红框表示，视频是 UCFC 的 Explosion013。有趣的是，异常分数在异常地面真相结束后仍然保持较高水平，这主要是由于网络认为异常的爆炸后果。

图 8

图 8. 在四个不同的 UCFC 视频中，GCLPT 的异常分数在正常区域较低，在异常区域较高。

关于收敛。我们使用多个随机种子初始化凭经验验证 GCL_B 和 GCL_PT 的收敛性（图 10）。GCL_B 和 GCL_PT 获得的平均 AUC 分别为 67.09±0.65 和 70.13±0.52。GCL_PT 不仅提高了整体性能，而且减少了不同种子的变化，展示了更好的收敛性。

关于加入弱监督。在使用 UCFC 的一系列实验中，弱视频级标签被注入 GCL，范围从 33% 到 100%。图 9 显示 \mathcal{G} 和 \mathcal{D} 都受益于增加的监督。值得注意的是，仅提供 33% 的带有弱标签的视频后，AUC% 就有了显着的跳跃，这表明即使是最低限度的监督也对拟议的 GCL 非常有益

关于使用自己的伪标签训练 $\mathcal{G}$ 。在这种配置下，我们观察到使用 ResNext3d 特征的 UCFC 的 AUC 为 62.28%。虽然优于 AE_AllData 的 56.32%，但仍低于我们的 GCL_PT 的 71.04%。这表明使用 $\mathcal{D}$ 进行伪标记是至关重要的，因为它在嘈杂的标签下具有强大的学习能力 [67、69]。

关于使用软标签。我们通过跳过阈值（等式（2））探索软标签在训练 $\mathcal{D}$ 中的使用。使用 ResNext3d 特征在 UCFC 上的 AUC 为 63.58%，这与表 2 中的 AE_TD 几乎相同。这是因为没有阈值， $\mathcal{D}$ 简单地开始复制 $\mathcal{G}$ 的输出，从而展示相同的性能。

局限性。我们的无监督设置使异常检测系统能够仅根据观察到的数据开始检测异常，而无需任何人为干预。如果到目前为止没有发生异常事件，系统可能会将罕见的正常事件视为异常。但是，如果一个系统在很长一段时间内保持运行，则没有异常事件的概率将非常小。

图 9

图 9. 通过将监督级别从 0 提高到 100%，对弱监督 GCLWS 中的 G 和 D 进行性能评估。

图 10

图 10. 通过使用多个随机种子启动训练，GCLB 和 GCLPT 收敛。

5. 结论

我们提出了一种使用未标记训练视频的无监督异常检测方法（GCL），可以在不提供任何手动注释的情况下进行部署。GCL 在两个具有不同监督级别（包括无监督、一级和弱监督）的公共基准数据集上表现出色。最后，我们讨论了无监督设置的局限性，即训练数据集中存在异常的假设。然而，这比 OCC 方法更现实，因为在现实世界场景中出现异常是很自然的。

参考文献

[1] Marcella Astrid, Muhammad Zaigham Zaheer, Jae-Yeong Lee, and Seung-Ik Lee. Learning not to reconstruct anomalies. arXiv preprint arXiv:2110.09742, 2021. 2, 4, 6
[2] Marcella Astrid, Muhammad Zaigham Zaheer, and Seung-Ik Lee. Synthetic temporal anomaly guided end-to-end video anomaly detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 207–214, 2021. 6
[3] Arslan Basharat, Alexei Gritai, and Mubarak Shah. Learning object motion patterns for anomaly detection and improved object detection. In 2008 IEEE Conference on Computer Vision and Pattern Recognition, pages 1–8. IEEE, 2008. 2
[4] Tanmay Batra and Devi Parikh. Cooperative learning with visual attributes. arXiv preprint arXiv:1705.05512, 2017. 3
[5] Paul Bergmann, Michael Fauser, David Sattlegger, and Carsten Steger. Mvtec ad–a comprehensive real-world dataset for unsupervised anomaly detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 9592–9600, 2019. 2
[6] Paul Bergmann, Michael Fauser, David Sattlegger, and Carsten Steger. Uninformed students: Student-teacher anomaly detection with discriminative latent embeddings. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2020. 2
[7] Raghavendra Chalapathy and Sanjay Chawla. Deep learning for anomaly detection: A survey. arXiv preprint arXiv:1901.03407, 2019. 2
[8] Antoni Chan and Nuno Vasconcelos. Ucsd pedestrian dataset. IEEE Trans. on Pattern Analysis and Machine Intelligence (TPAMI), 30(5):909–926, 2008. 2
[9] Varun Chandola, Arindam Banerjee, and Vipin Kumar. Anomaly detection: A survey. ACM computing surveys (CSUR), 41(3):1–58, 2009. 1
[10] MyeongAh Cho, Taeoh Kim, Ig-Jae Kim, and Sangyoun Lee. Unsupervised video anomaly detection via normalizing flows with implicit latent features. arXiv preprint arXiv:2010.07524, 2020. 6
[11] Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha, Moussa Reda Mansour, Svetha Venkatesh, and Anton van den Hengel. Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE International Conference on Computer Vision, pages 1705–1714, 2019. 1, 2, 6
[12] Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha, Moussa Reda Mansour, Svetha Venkatesh, and Anton van den Hengel. Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection. In The IEEE International Conference on Computer Vision (ICCV), October 2019. 2, 3, 5
[13] Kensho Hara, Hirokatsu Kataoka, and Yutaka Satoh. Can spatiotemporal 3d cnns retrace the history of 2d cnns and imagenet? arXiv preprint, arXiv:1711.09577, 2017. 6
[14] Mahmudul Hasan, Jonghyun Choi, Jan Neumann, Amit K Roy-Chowdhury, and Larry S Davis. Learning temporal regularity in video sequences. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 733–742, 2016. 1, 5, 6
[15] Di He, Yingce Xia, Tao Qin, Liwei Wang, Nenghai Yu, TieYan Liu, and Wei-Ying Ma. Dual learning for machine translation. Advances in neural information processing systems, 29:820–828, 2016. 3
[16] Matthaus Heer, Janis Postels, Xiaoran Chen, Ender ¨ Konukoglu, and Shadi Albarqouni. The ood blind spot of unsupervised anomaly detection. In Medical Imaging with Deep Learning, 2021. 2
[17] Ryota Hinami, Tao Mei, and Shin’ichi Satoh. Joint detection and recounting of abnormal events by learning deep generic knowledge. In Proceedings of the IEEE International Conference on Computer Vision, pages 3619–3627, 2017. 1
[18] Geoffrey Hinton, Oriol Vinyals, and Jeff Dean. Distilling the knowledge in a neural network. arXiv preprint arXiv:1503.02531, 2015. 2
[19] John Taylor Jewell, Vahid Reza Khazaie, and Yalda Mohsenzadeh. Oled: One-class learned encoder-decoder network with adversarial context masking for novelty detection. arXiv preprint arXiv:2103.14953, 2021. 2
[20] Shunsuke Kamijo, Yasuyuki Matsushita, Katsushi Ikeuchi, and Masao Sakauchi. Traffic monitoring and accident detection at intersections. IEEE transactions on Intelligent transportation systems, 1(2):108–118, 2000. 2
[21] Jin-Hwa Kim, Do-Hyeong Kim, Saehoon Yi, and Taehoon Lee. Semi-orthogonal embedding for efficient unsupervised anomaly segmentation. arXiv preprint arXiv:2105.14737, 2021. 6
[22] Sangmin Lee, Hak Gu Kim, and Yong Man Ro. Bman: bidirectional multi-scale aggregation networks for abnormal event detection. IEEE Transactions on Image Processing, 29:2395–2408, 2019. 6
[23] Tangqing Li, Zheng Wang, Siying Liu, and Wen-Yan Lin. Deep unsupervised anomaly detection. In Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision, pages 3636–3645, 2021. 6
[24] Daochang Liu, Tingting Jiang, and Yizhou Wang. Completeness modeling and context separation for weakly supervised temporal action localization. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1298–1307, 2019. 1
[25] Wen Liu, Weixin Luo, Dongze Lian, and Shenghua Gao. Future frame prediction for anomaly detection–a new baseline. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 6536–6545, 2018. 1, 6
[26] Ziyi Liu, Le Wang, Qilin Zhang, Zhanning Gao, Zhenxing Niu, Nanning Zheng, and Gang Hua. Weakly supervised temporal action localization through contrast based evaluation networks. In Proceedings of the IEEE International Conference on Computer Vision, pages 3899–3908, 2019. 1
[27] Cewu Lu, Jianping Shi, and Jiaya Jia. Abnormal event detection at 150 fps in matlab. In Proceedings of the IEEE international conference on computer vision, pages 2720–2727, 2013. 5, 6
[28] Weixin Luo, Wen Liu, and Shenghua Gao. A revisit of sparse coding based anomaly detection in stacked rnn framework. In Proceedings of the IEEE International Conference on Computer Vision, pages 341–349, 2017. 1, 6
[29] Weixin Luo, Wen Liu, and Shenghua Gao. A revisit of sparse coding based anomaly detection in stacked rnn framework. In Proceedings of the IEEE International Conference on Computer Vision, pages 341–349, 2017. 2, 7
[30] Snehashis Majhi, Srijan Das, and Franc¸ois Bremond. Dam: ´ Dissimilarity attention module for weakly-supervised video anomaly detection. 6
[31] Gerard Medioni, Isaac Cohen, Franc ´ ¸ois Bremond, Somboon ´ Hongeng, and Ramakant Nevatia. Event detection and analysis from video streams. IEEE Transactions on pattern analysis and machine intelligence, 23(8):873–889, 2001. 2
[32] Sadegh Mohammadi, Alessandro Perina, Hamed Kiani, and Vittorio Murino. Angry crowds: Detecting violent events in videos. In European Conference on Computer Vision, pages 3–18. Springer, 2016. 2
[33] Asim Munawar, Phongtharin Vinayavekhin, and Giovanni De Magistris. Limiting the reconstruction capability of generative neural network using negative learning. In 2017 IEEE 27th International Workshop on Machine Learning for Signal Processing (MLSP), pages 1–6. IEEE, 2017. 4
[34] Sanath Narayan, Hisham Cholakkal, Fahad Shahbaz Khan, and Ling Shao. 3c-net: Category count and center loss for weakly-supervised action localization. In Proceedings of the IEEE International Conference on Computer Vision, pages 8679–8687, 2019. 1
[35] Trong-Nguyen Nguyen and Jean Meunier. Anomaly detection in video sequence with appearance-motion correspondence. In The IEEE International Conference on Computer Vision (ICCV), October 2019. 2
[36] Trong Nguyen Nguyen and Jean Meunier. Hybrid deep network for anomaly detection. arXiv preprint arXiv:1908.06347, 2019. 2
[37] Hyunjong Park, Jongyoun Noh, and Bumsub Ham. Learning memory-guided normality for anomaly detection. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14372–14381, 2020. 1, 3, 6
[38] Claudio Piciarelli, Christian Micheloni, and Gian Luca Foresti. Trajectory-based anomalous event detection. IEEE Transactions on Circuits and Systems for video Technology, 18(11):1544–1554, 2008. 2
[39] Janis Postels, Hermann Blum, Yannick Strumpler, Cesar ¨ Cadena, Roland Siegwart, Luc Van Gool, and Federico Tombari. The hidden uncertainty in a neural networks activations. arXiv preprint arXiv:2012.03082, 2020. 2
[40] Didik Purwanto, Yie-Tarng Chen, and Wen-Hsien Fang. Dance with self-attention: A new look of conditional random fields on anomaly detection in videos. In Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), pages 173–183, October 2021. 2, 6
[41] Mahdyar Ravanbakhsh, Moin Nabi, Hossein Mousavi, Enver Sangineto, and Nicu Sebe. Plug-and-play cnn for crowd motion analysis: An application in abnormal event detection. In 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pages 1689–1698. IEEE, 2018. 1
[42] Mahdyar Ravanbakhsh, Moin Nabi, Enver Sangineto, Lucio Marcenaro, Carlo Regazzoni, and Nicu Sebe. Abnormal event detection in videos using generative adversarial nets. In 2017 IEEE International Conference on Image Processing (ICIP), pages 1577–1581. IEEE, 2017. 1, 2
[43] Huamin Ren, Weifeng Liu, Søren Ingvor Olsen, Sergio Escalera, and Thomas B Moeslund. Unsupervised behaviorspecific dictionary learning for abnormal event detection. In BMVC, pages 28–1, 2015. 2
[44] Mohammad Sabokrou, Mahmood Fathy, Guoying Zhao, and Ehsan Adeli. Deep end-to-end one-class classifier. IEEE transactions on neural networks and learning systems, 2020. 2
[45] Mohammad Sabokrou, Mohsen Fayyaz, Mahmood Fathy, and Reinhard Klette. Deep-cascade: Cascading 3d deep neural networks for fast anomaly detection and localization in crowded scenes. IEEE Transactions on Image Processing, 26(4):1992–2004, 2017. 1, 2
[46] Zheng Shou, Hang Gao, Lei Zhang, Kazuyuki Miyazawa, and Shih-Fu Chang. Autoloc: Weakly-supervised temporal action localization in untrimmed videos. In Proceedings of the European Conference on Computer Vision (ECCV), pages 154–171, 2018. 1
[47] Sorina Smeureanu, Radu Tudor Ionescu, Marius Popescu, and Bogdan Alexe. Deep appearance features for abnormal behavior detection in video. In International Conference on Image Analysis and Processing, pages 779–789. Springer, 2017. 1, 2
[48] Fahad Sohrab, Jenni Raitoharju, Moncef Gabbouj, and Alexandros Iosifidis. Subspace support vector data description. In 2018 24th International Conference on Pattern Recognition (ICPR), pages 722–727. IEEE, 2018. 6
[49] Jessie James P Suarez and Prospero C Naval Jr. A survey on deep learning techniques for video anomaly detection. arXiv preprint arXiv:2009.14146, 2020. 2
[50] Waqas Sultani, Chen Chen, and Mubarak Shah. Real-world anomaly detection in surveillance videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 6479–6488, 2018. 1, 2, 3, 5, 6, 7
[51] Waqas Sultani and Jin Young Choi. Abnormal traffic detection using intelligent driver model. In 2010 20th International Conference on Pattern Recognition, pages 324–327. IEEE, 2010. 2
[52] Yu Tian, Guansong Pang, Yuanhong Chen, Rajvinder Singh, Johan W Verjans, and Gustavo Carneiro. Weakly-supervised video anomaly detection with robust temporal feature magnitude learning. arXiv preprint arXiv:2101.10030, 2021. 2, 3, 6
[53] Laurens Van der Maaten and Geoffrey Hinton. Visualizing data using t-sne. Journal of machine learning research, 9(11), 2008. 7
[54] Jue Wang and Anoop Cherian. Gods: Generalized one-class discriminative subspaces for anomaly detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 8201–8211, 2019. 3, 6
[55] Jiang Wang, Yang Song, Thomas Leung, Chuck Rosenberg, Jingbin Wang, James Philbin, Bo Chen, and Ying Wu. Learning fine-grained image similarity with deep ranking. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1386–1393, 2014. 2
[56] Limin Wang, Yuanjun Xiong, Dahua Lin, and Luc Van Gool. Untrimmednets for weakly supervised action recognition and detection. In Proceedings of the IEEE conference on Computer Vision and Pattern Recognition, pages 4325– 4334, 2017. 1
[57] Xuanzhao Wang, Zhengping Che, Bo Jiang, Ning Xiao, Ke Yang, Jian Tang, Jieping Ye, Jingyu Wang, and Qi Qi. Robust unsupervised video anomaly detection by multipath frame prediction. IEEE Transactions on Neural Networks and Learning Systems, 2021. 6
[58] Qi Wei, Yinhao Ren, Rui Hou, Bibo Shi, Joseph Y Lo, and Lawrence Carin. Anomaly detection for medical images based on a one-class classification. In Medical Imaging 2018: Computer-Aided Diagnosis, volume 10575, page 105751M. International Society for Optics and Photonics, 2018. 2
[59] Peng Wu, Jing Liu, Yujia Shi, Yujia Sun, Fangtao Shao, Zhaoyang Wu, and Zhiwei Yang. Not only look, but also listen: Learning multimodal violence detection under weak supervision. In European Conference on Computer Vision, pages 322–339. Springer, 2020. 6
[60] Yan Xia, Xudong Cao, Fang Wen, Gang Hua, and Jian Sun. Learning discriminative reconstructions for unsupervised outlier removal. In Proceedings of the IEEE International Conference on Computer Vision, pages 1511–1519, 2015. 1
[61] Dan Xu, Elisa Ricci, Yan Yan, Jingkuan Song, and Nicu Sebe. Learning deep representations of appearance and motion for anomalous event detection. arXiv preprint arXiv:1510.01553, 2015. 2
[62] Dan Xu, Yan Yan, Elisa Ricci, and Nicu Sebe. Detecting anomalous events in videos by learning deep representations of appearance and motion. Computer Vision and Image Understanding, 156:117–127, 2017. 2
[63] Tan Yu, Zhou Ren, Yuncheng Li, Enxu Yan, Ning Xu, and Junsong Yuan. Temporal structure mining for weakly supervised action detection. In Proceedings of the IEEE International Conference on Computer Vision, pages 5522–5531, 2019. 1
[64] Muhammad Zaigham Zaheer, Jin-ha Lee, Marcella Astrid, and Seung-Ik Lee. Old is gold: Redefining the adversarially learned one-class classifier training paradigm. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pages 14183–14193, 2020. 1, 2, 5, 6
[65] Muhammad Zaigham Zaheer, Jin-ha Lee, Marcella Astrid, Arif Mahmood, and Seung-Ik Lee. Cleaning label noise with clusters for minimally supervised anomaly detection. In Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), 2020. 1, 2, 3, 6
[66] Muhammad Zaigham Zaheer, Jin Ha Lee, Arif Mahmood, Marcella Astrid, and Seung-Ik Lee. Stabilizing adversarially learned one-class novelty detection using pseudo anomalies, 2022. 1
[67] Muhammad Zaigham Zaheer, Arif Mahmood, Marcella Astrid, and Seung-Ik Lee. Claws: Clustering assisted weakly supervised learning with normalcy suppression for anomalous event detection. In European Conference on Computer Vision, pages 358–376. Springer, 2020. 1, 2, 3, 6, 8
[68] Muhammad Zaigham Zaheer, Arif Mahmood, Marcella Astrid, and Seung-Ik Lee. Clustering aided weakly supervised training to detect anomalous events in surveillance videos, 2022. 6
[69] Muhammad Zaigham Zaheer, Arif Mahmood, Hochul Shin, and Seung-Ik Lee. A self-reasoning framework for anomaly detection using video-level labels. IEEE Signal Processing Letters, 27:1705–1709, 2020. 1, 2, 3, 6, 8
[70] Jiangong Zhang, Laiyun Qing, and Jun Miao. Temporal convolutional network with complementary inner bag loss for weakly supervised anomaly detection. In 2019 IEEE International Conference on Image Processing (ICIP), pages 4030–4034. IEEE, 2019. 6
[71] Tianzhu Zhang, Hanqing Lu, and Stan Z Li. Learning semantic scene models by object classification and trajectory clustering. In 2009 IEEE Conference on Computer Vision and Pattern Recognition, pages 1940–1947. IEEE, 2009. 2
[72] Ying Zhang, Huchuan Lu, Lihe Zhang, Xiang Ruan, and Shun Sakai. Video anomaly detection based on locality sensitive hashing filters. Pattern Recognition, 59:302–311, 2016. 1
[73] Ying Zhang, Tao Xiang, Timothy M Hospedales, and Huchuan Lu. Deep mutual learning. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4320–4328, 2018. 2
[74] Jia-Xing Zhong, Nannan Li, Weijie Kong, Shan Liu, Thomas H Li, and Ge Li. Graph convolutional label noise cleaner: Train a plug-and-play action classifier for anomaly detection. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1237–1246, 2019. 1, 2, 3, 5, 6
[75] Yi Zhu and Shawn Newsam. Motion-aware feature for improved video anomaly detection. arXiv preprint arXiv:1907.10211, 2019. 6