基于弱监督学习的视频异常检测与鲁棒时序特征幅度学习（Robust Temporal Feature Magnitude Learning）

温柔哥`

已于 2024-07-23 21:14:04 修改

阅读量1k

点赞数 25

分类专栏：视频异常检测文章标签：深度学习 VAD MIL RTFM 时序特征幅度学习弱监督视频异常检测

于 2024-07-23 21:08:49 首次发布

本文链接：https://blog.csdn.net/lemonzjk/article/details/140588435

版权

视频异常检测专栏收录该内容

5 篇文章 0 订阅

订阅专栏

文章目录

摘要
一、引言
二、相关工作
三、RTFM方法
四、实验
五、结论
- 5.1 RTFM方法
- 5.2 改进

原文标题为：Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning

更新中……

摘要

问题描述

基于弱监督视频级别标签的异常检测是一个多实例学习（MIL）问题
目标是识别异常片段（每个视频由一包片段组成）

目前局限性

对正实例的识别在很大程度上会受到负实例的影响，尤其是在下面两种情况时更严重：

异常事件与正常事件仅有轻微差异时——特征幅度学习
没有考虑时间依赖关系时——MTN来学习时间特征

引入RTFM方法

RTFM：Robust Temporal Feature Magnitude learning，即鲁棒时序特征幅度学习

训练一个特征幅度学习函数，以有效地识别正实例（异常片段）
提升了多实例学习（MIL）方法对异常视频中负实例（正常片段）的鲁棒性。就是降低硬实例的干扰

创新点

采用了扩张卷积和自注意力机制

扩张卷积有助于捕捉视频中的长时和短时时间依赖关系
自注意力机制通过选择性地关注重要的时间关系，提升了特征幅度学习的准确性

实验结果

证明了RTFM的有效性

在四个基准数据集（ShanghaiTech、UCF-Crime、XD-Violence和UCSD-Peds）上优于多个最先进的方法
提升了对微妙异常的区分能力，并改善了样本效率（就是提高了对数据的利用率）

一、引言

1.1 研究背景与目的

视频异常检测在自主监控中具有重要应用潜力，目的是识别异常事件发生的时间窗口，如欺凌、盗窃、暴力等。

1.2 方法比较

1.2.1 单类分类器

one-class classifiers (OCCs, also called unsupervised anomaly detection)
仅包含正常视频进行训练

1.2.2 弱监督设置

表现最佳，通过较少的人工注释以达到更好的异常分类

1.3 挑战与问题

弱监督异常检测的主要挑战之一是如何从标记为异常的整个视频中识别异常片段

异常视频中的大多数片段包含正常事件，使得少数异常片段的拟合变得困难
异常片段可能与正常片段差异很小，很难清晰分离开来

MIL方法通过平衡训练集来解决上述问题，即训练集中会包含相同数量的异常片段和正常片段

正常片段从正常视频中随机选
异常片段从异常视频中取分数最高的片段

部分解决了上述问题，但MIL引入了新问题，在忽略重要时间依赖关系的方法中尤为严重：

异常视频中最高异常分数可能不来自异常片段，这可能导致模型在训练过程中对异常事件的误判
从正常视频中随机选择的正常片段可能相对容易拟合，模型在学习过程中可能会倾向于优化这些样本的拟合，而忽略那些更具挑战性的、代表真实异常情况的样本
视频中存在多个异常片段时，可能错失更有效的训练机会（因为MIL方法只选择其中最高的作为代表）
分类分数的使用提供了一个弱训练信号，不能很好的区分正常和异常片段

1.4 提出RTFM

1.4.1 理论基础

RTFM依赖于视频片段的时序特征幅度

低幅度特征表示正常片段
高幅度特征表示异常片段

RTFM方法受多示例学习（MIL）中的top-k实例理论启发，但采取了不同的假设：假设异常片段的平均特征幅度大于正常片段，而不是依赖于异常和正常片段分类分数的明显差异。

时序特征幅度，举例来说：假设有一个视频监控系统来监控商场的偷窃行为，在视频异常检测中，每个视频片段都会提取一些视觉特征，比如颜色直方图、运动向量、光流等，时序特征幅度则指这些特征在时间轴上的强度或变化。

正常的视频片段通常包含相对平稳的颜色变化和运动模式，因此它们的时间特征幅度可能相对较低，表示这些特征在时间上的变化不大或者变化较为预测性。
异常的视频片段可能会显示出突然的颜色变化、不寻常的运动模式或者其他不寻常的视觉特征。这些异常片段的时间特征幅度可能会显著增加，因为它们在特征空间中的表达具有较大的强度或重要性。

1.4.2 RTFM的原理

如图1所示，当每个异常视频中有多个异常片段，并且异常视频的平均片段特征幅度大于正常视频的平均片段特征幅度时，基于特征幅度的top-k特征选择能够更好地区分异常视频和正常视频

图1：RTFM训练特征幅度学习函数。
在左图中：假设 $\mu=3$ 表示异常视频中异常片段的数量，可以通过选择时间特征幅度最大的前 $k \leq µ$ 个片段来最大化 $\Delta score(X^+, X^-)$ （异常视频和正常视频之间得分差异的度量，得分是通过前 k 个片段的特征幅度均值计算得出的）

$X^+$ 表示异常视频
$X^-$ 表示正常视频
$x^+||$ 表示异常片段的时序特征幅度
$x^-||$ 表示正常片段的时序特征幅度

在右图中： $k \approx µ$ 时，即使存在一些具有大特征幅度的正常片段，RTFM可以更好地区分异常和正常视频

$\in [1, µ]$ 时， $\Delta score(X^+, X^-)$ 随k增大
$\in ( µ, \infty)$ 时， $\Delta score(X^+, X^-)$ 随k减少

实际应用中，RTFM方法通过在异常和正常视频中选择具有最大特征幅度的前 k 个片段特征，并确保它们之间有较大的间隔，这在理论上保证了能够最大程度地区分异常和正常视频的表示。然后，从异常和正常视频中选择的这些 top k 片段特征被用来训练一个片段分类器。这里是先训练让他保证有较大的间隔之后再训练分类器吗？是的，先通过MTN学习时间特征，然后进行特征幅度学习，这时就是让分数差最大，然后再去训练分类器。

1.4.3 结合PDC和TSA

为了在每个视频中无缝地整合长、短时时间依赖关系，RTFM结合了金字塔式扩张卷积（PDC - pyramid of dilated convolutions）和时间自注意力模块（TSA - temporal self-attention）

PDC用于捕捉视频中的长期时间依赖关系，通过不同扩张率的卷积核扩展感受野
TSA用于处理短期时间依赖，允许模型在不同时间步之间建立自注意力机制

1.5 解决问题

可以提高从异常视频中选择异常片段的概率：由于假设异常片段具有较大的特征幅度，RTFM方法在从异常视频中选择异常片段时增加了其被选中的概率。特征幅度学习完之后，分数差变大了，异常片段的平均特征幅度更高了，所以更容易被选择
可以提高训练的收敛性：硬实例更难拟合。通过什么方法做到的？分数差变大意味着负实例的特征幅度变小，所以难拟合
可以增加异常片段的数量：RTFM方法允许从异常视频中选择更多的异常片段
利用特征幅度进行正实例识别更好：RTFM利用特征幅度来识别正实例提供了更强的学习信号，尤其对于特征幅度可能在训练过程中动态变化的异常片段，并且特征幅度学习与MIL异常分类可以联合优化，在特征表示空间和异常分类输出空间上实现异常片段和正常片段之间更大的分离边界。特征表示空间就是学习完时间特征并进行特征幅度学习后那个空间，异常分类输出空间就是最后分类器输出的那个

1.6 实验证明

我们在四个异常检测基准数据集上验证了RTFM：

ShanghaiTech
UCF-Crime
XD-Violence
UCSD-Peds

使用不同的预训练特征（C3D和I3D），RTFM在所有基准测试中都比当前的最优方法SOTAs好，相比多示例学习（MIL）
RTFM显著提高了样本效率和对微小异常的区分能力

二、相关工作

与原始的多示例学习（MIL）表述相比，RTFM计算开销很小
RTFM通过基于’L2范数的时间特征排名损失’统一了表示学习和异常分数学习，促进了正常和异常特征表示的更好分离?

三、RTFM方法

图2：RTFM方法。
1. 接收预训练好的特征矩阵 $\mathbf{F}\in \mathbb{R}^{T\times D}$ ，它来自一个包含 $T$ 个片段的视频中，每个片段的特征维数为 $D$ 。
2. MTN模块捕获方段特征之间的长程和短程时间依赖关系，即得到时间特征矩阵 $\mathbf{X}=s_\theta(\mathbf{F})$
3. 使用特征幅度学习，最大化异常和正常视频的可分性
4. 用从异常和正常视频中提取的特征幅度最大的前 $k$ 个特征片段来训练片段分类器

RFTM使用弱标记视频训练来区分异常片段和正常片段

$\mathcal{D}=\{( \mathrm{\mathbf{F}}_i, y_i) \}_{i=1}^{\mathcal D}$ 表示一组弱标记视频
- $\mathrm{\mathbf{F}}\in\mathcal{F}\subset\mathbb{R}^{T\times D}$ 表示从 $T$ 个视频片段中预训练的 $D$ 维特征（C3D或I3D）
- $y\in\mathcal{Y}=\{0, 1\}$ 表示视频即标注
  - $y_i=0$ 表示正常视频
  - $y_i=1$ 表示异常视频
$r_{\theta, \phi}(\mathrm{\mathbf{F}})=f_\phi(s_\theta(\mathrm{\mathbf{F}}))$ 表示RTFM模型
- 返回一个 $T$ 维特征 $0, 1]^T$ ，表示将 $T$ 个视频片段分为正常和异常两类。这里指的是一个特征向量，长度为 $T$ ，每个元素值在 $[0, 1]$ 之间，代表每个片段为异常的概率吗？是的吧

该模型的训练包括端到端多尺度时间特征学习、特征幅度学习和RTFM支持的MIL分类器训练的联合优化，损失函数如下：
在这里插入图片描述

$s_\theta:\mathcal{F\to X}$ 表示时间特征提取器
- $\mathcal{X} \subset \mathbb{R}^{T \times D}$ 表示为一个视频的 $T$ 个片段提取到的 $D$ 维时间特征
$f_\phi:\mathcal{X \to}[0, 1]^T$ 表示片段分类器（snippet classifier）
$\ell_s(.)$ 表示一个损失函数，用于最大化正常视频和异常视频中前top-k片段特征之间的可分性。就是特征幅度学习的损失
$\ell_f(.)$ 表示一个损失函数，用于训练片段分类器 $f_\phi(.)$ 也使用正常和异常视频的top-k片段特征。就是片段分类器的损失

有点没明白的是， $i, j = 1$ 到 $\mathcal{|D|}$ 是什么意思？ $\mathcal{|D|}$ 又代表什么意思？

3.1 RTFM的理论动机

Top-k MIL方法扩展了多示例学习（MIL）到一种环境，并假设分类器能够有效地将正样本和负样本分开：

正包中包含最少数量的正实例
负包中也包含一些正实例，但数量较少

我们的问题不同，负包中不含正实例，并不假设分类器能够有效地将正样本和负样本分开

$\mathrm{\mathbf{X}}=s_\theta(\mathrm{\mathbf{F}})$ 表示从视频中提取的时间特征
- $\mathrm{\mathbf{x}}_t$ 表示片段特征，为 $\mathrm{\mathbf{X}}$ 的第 $t$ 行
$\mathrm{\mathbf{x}}^+\sim P^+_x(\mathrm{\mathbf{x}})$ 表示异常片段？
$\mathrm{\mathbf{x}}^-\sim P^-_x(\mathrm{\mathbf{x}})$ 表示正常片段？
$\mathrm{\mathbf{X}}^+$ 表示异常视频，共有 $T$ 个片段
- 从 $P^+_x(\mathrm{\mathbf{x}})$ 中抽取 $\mu$ 个片段
- 从 $P^-_x(\mathrm{\mathbf{x}})$ 中抽取 $T-\mu$ 个片段
$\mathrm{\mathbf{X}}^-$ 表示正常视频，共有 $T$ 个片段
- 从 $P^-_x(\mathrm{\mathbf{x}})$ 中抽取 $T 个$

$\mathrm{\mathbf{X}}$ 不是表示时间特征？那么 $\mathrm{\mathbf{x}}^+$ 和 $\mathrm{\mathbf{x}}^-$ 是表示的正常片段和异常片段的时间特征吗？

3.1.1 基于特征幅度的视频异常分类学习

定义了一个可以将视频和片段分类为正常或异常的函数，其使用片段的幅度（即使用L2范数计算特征幅度）来分类片段，假设正常片段的特征幅度小于异常片段的特征幅度，即 $\mathbb{E}[||\mathrm{\mathbf{x^+}}||_2] \geq \mathbb{E}[||\mathrm{\mathbf{x^-}}||_2]$ 。通过从 $s_\theta(\mathrm{\mathbf{F}})$ 中学习片段特征可以满足这一假设。使用基于视频中前top $k$ 个片段平均特征幅度的优化方法来实现这一学习，定义如下：
在这里插入图片描述

$g_{\theta,k}(.)$ 是由 $\theta$ 参数化，表示它依赖 $s_\theta(.)$ 产生的 $\mathrm{\mathbf{x}}_t$ 。 $g_{\theta,k}(.)$ 的作用就是求一个视频中前top $k$ 个片段的平均特征幅度
$\Omega_k(\mathrm{\mathbf{X}})$ 包含了来自 $\{\mathrm{\mathbf{x}}_t \}^T_{t=1}$ 和 $|\Omega_k(\mathrm{\mathbf{X}})|=k$ 的 $k$ 个片段的子集
- $\{\mathrm{\mathbf{x}}_t \}^T_{t=1}$ 是视频中从第 $t = 1$ 个到第 $T$ 个片段的时间特征
- $|\Omega_k(\mathrm{\mathbf{X}})|=k$ 猜测是从 $\{\mathrm{\mathbf{x}}_t \}^T_{t=1}$ 中取 $k$ 个，一直找到哪 $k$ 个可以使得 $g_{\theta,k}(.)$ 最大

异常视频与正常视频的可分性（即分数差 $\Delta score(\mathrm{\mathbf{X}}^+, \mathrm{\mathbf{X}}^-)$ ）定义如下：
在这里插入图片描述

这里只需要把正常视频和异常视频的时间特征传过来

3.1.2 定理3.1（正常和异常视频的预期可分离性）

3.1.2.1 异常片段的概率定义

来自 $\Omega_k(\mathrm{\mathbf{X}}^+)$ 的片段是异常片段的概率定义为：
$p_k^+(\mathrm{\mathbf{X}}^+)=\frac{min(\mu, k)}{k+\epsilon}$

$\epsilon > 0$

来自 $\Omega_k(\mathrm{\mathbf{X}}^-)$ 的片段是异常片段的概率定义为：
$p_k^+(\mathrm{\mathbf{X}}^-)=0$

$\epsilon > 0$
这个定义也就印证了之前提到的假设，负包中是不存在正实例的，所以概率直接为0

这个定义意味着，只要 $k \leq µ$ ，就有可能在 $\Omega_k(\mathrm{\mathbf{X}}^+)$ 的前 $k$ 个片段中找到异常片段。因为此时 $p_k^+(\mathrm{\mathbf{X}}^+)$ 是接近于1的，当k大于μ时，概率就会越来越小

3.1.2.2 特征幅度假设

假设正常片段的特征幅度小于异常片段的特征幅度，即
$\mathbb{E}[||\mathrm{\mathbf{x^+}}||_2] \geq \mathbb{E}[||\mathrm{\mathbf{x^-}}||_2]$

$\mathrm{\mathbf{X^+}}$ 有 $\mu$ 个正常片段， $T-\mu$ 个异常片段
- $\mu \in [1, T]$
$\mathrm{\mathbf{X^-}}$ 有 $T$ 个正常片段

3.1.2.3 定理

设 $D_{\theta, k}(.)$ 为随机变量，从中可以得出可分离性分数 $d_{\theta, k}$

在这里插入图片描述
定理的第1部分表明：只要 $k \leq µ$ ，在异常视频的前 $k$ 个片段中，随着 $k$ 增加（即使它包含一些负实例），异常视频与正常视频之间的可分离性趋于增加
定理的第2部分表明：当 $k>\mu$ 时，因为在正包和负包中都有大量的负样本，所以难以区分异常和正常的视频分数
如图1所示，其中

$score(\mathrm{\mathbf{X}})=g_{\theta, k}(\mathrm{\mathbf{X}})$
$\Delta score(\mathrm{\mathbf{X}}^+, \mathrm{\mathbf{X}}^-)=d_{\theta, k}(\mathrm{\mathbf{X}}^+, \mathrm{\mathbf{X}}^-)$
$\epsilon=0.4$

3.1.2.4 定理核心

最大化异常和正常视频中前 $k$ 个时间特征片段的可分离性有助于分类

3.1.2.5 训练效果

利用前 $k$ 个特征片段进行训练可以更有效地区分异常和正常情况，因为：

异常视频中的前 $k$ 个样本通常是异常的
正常视频中的前 $k$ 个样本是最难训练的，即硬实例

3.1.2.6 优势

因为仅使用每个视频的前 k 个样本，因此在较少的训练样本下也能够实现高效优化

3.2 多尺度时间特征学习

受注意力技术的启发，多尺度时间网络（MTN - multi-scale temporal network）捕捉了多分辨率的局部时间依赖以及视频片段之间的全局时间依赖。

MTN采用时间域上的金字塔式扩张卷积来学习视频片段的多尺度表示

传统上扩张卷积在空间领域中被用来扩展感受野
这里是在时间维度上使用扩张卷积，以捕捉邻近视频片段之间的多尺度时间依赖关系

MTN从预计算的特征 $\mathrm{\mathbf{F}}=[\mathrm{\mathbf{f}}_d]_{d=1}^D$ 中学习多尺度时间特征

$D$ 表示从 $T$ 个视频片段中预训练的 $D$ 维特征（C3D或I3D）
$\mathrm{\mathbf{f}}_d \in \mathbb{R}^T$ 表示 $\mathrm{\mathbf{F}}$ 的第 $d$ 列，每1列的长度为 $T$ （片段数）为什么要按列取而不是按行？
$\mathrm{\mathbf{W}}^{(l)}_{k, d} \in \mathbb{R}^W$ 表示扩张卷积核
- $\in \{ 1, …, D/4 \}$
- $\in \{ 1, …, D \}$
- $\in \{ \rm{PDC}_1, \rm{PDC}_2, \rm{PDC}_3 \}$
- $W$ 表示卷积核大小
$^{(l)}$ 表示以 $l$ 为索引的扩张卷积运算
$\mathrm{\mathbf{f}}_k^{(l)} \in \mathbb{R}^T$ 表示在时间维度上应用扩张卷积后的输出特征。 $T = D /4$ 吗？因为 $W_{D/4 \times D}$ 与 $\mathrm{\mathbf{f}}_d$ 相乘之后不就变为 $\times D/4$ 的了吗
$\{ \rm{PDC}_1, \rm{PDC}_2, \rm{PDC}_3 \}=\{1, 2, 4\}$ 表示扩张系数

使用自注意力模块来实现视频片段之间的全局时间依赖关系

之前使用图卷积网络（GCN）来建模全局时间信息
这里重新构建了空间自注意技术，使其能够在时间维度上工作，并捕捉全局时间上下文

具体来说，最终生成一个注意力图 $\mathrm{\mathbf{M}} \in \mathbb{R}^{T \times T}$ ，用于估计视频片段之间的两两关联

使用 $\times 1$ 卷积降低空间维度，从 $\mathrm{\mathbf{F}} \in \mathbb{R}^{T \times D}$ 到 $\mathrm{\mathbf{F}}^{(c)} \in \mathbb{R}^{T \times D/4}$
- $\mathrm{\mathbf{F}}^{(c)}=Conv_{1 \times 1}(\mathrm{\mathbf{F}})$
对 $\mathrm{\mathbf{F}}^{(c)}$ 应用3个单独的 $1\times1$ 卷积得到 $\mathrm{\mathbf{F}}^{(c1)}, \mathrm{\mathbf{F}}^{(c2)}, \mathrm{\mathbf{F}}^{(c3)} \in \mathbb{R}^{T \times D/4}$
- 即 $\mathrm{\mathbf{F}}^{(ci)}=Conv_{1 \times 1}(\mathrm{\mathbf{F}}^{(c)})$ 对于 $\in \{1, 2, 3\}$ 他们三个一样吗？应该不一样的，因为卷积核的值可以不一样
最终得到的注意力图为 $\mathrm{\mathbf{M}}=(\mathrm{\mathbf{F}}^{(c1)})(\mathrm{\mathbf{F}}^{(c2)})^\top$
$\mathrm{\mathbf{F}}^{(c4)}=Conv_{1 \times 1}(\mathrm{\mathbf{MF}}^{(c3)})$ 这是干什么？那他们怎么串联起来的？

在最后的 $1 \times 1$ 卷积层之后添加一个跳连接，如下：

在这里插入图片描述
MTN的输出 $\bar{\mathrm{\mathbf{F}}}=[\mathrm{\mathbf{F}}^{(l)}]_{l \in \mathcal{L}} \in \mathbb{R}^{T \times D}$ 是由PDC和MTN模块的输出串联而成，其中包括 $\mathcal{L}=\{\mathrm{PDC1}, \mathrm{PDC2}, \mathrm{PDC3}, \mathrm{TSA}\}$
其实就是上面算出来的 $\mathrm{\mathbf{F}}^{(l)}=[\mathrm{\mathbf{f}}_k]_{d=1}^D$ 和 $\mathrm{\mathbf{F}}^{(\mathrm{TSA})}$ ，不过有个疑问， $\mathrm{\mathbf{F}}^{(\mathrm{TSA})}$ 最终算出来好像不是 $\mathbb{R}^{T\times D}$ 吧？

最终输出的时间特征表示是由原始特征 $\mathrm{\mathbf{F}}$ 的跳连接组成，即 $\mathrm{\mathbf{X}}=s_\theta(\mathrm{\mathbf{F}})=\bar{\mathrm{\mathbf{F}}}+\mathrm{\mathbf{F}}$

$\theta$ 为本节中描述的所有卷积的权重

3.3 特征幅度学习

提出了损失函数 $\ell_s(.)$ 来建模 $s_{\theta}(\mathrm{\mathbf{F}})$ ，如下：

最小化正常视频中的前k个最大片段特征值
最大化异常视频中的前k个最大片段特征值

在这里插入图片描述

$m$ 是提前定义好的边界
- 当分数差大于 $m$ 时，损失为0
- 当分数差小于 $m$ 时，分数差越小，损失越大
$\mathrm{\mathbf{X}}_i=s_\theta(\mathrm{\mathbf{F}}_i)$ 表示异常视频特征
$\mathrm{\mathbf{X}}_j=s_\theta(\mathrm{\mathbf{F}}_j)$ 表示正常视频特征
$d_{\theta, k}(.)$ 表示分数差

3.4 基于RTFM的片段分类器学习

使用了基于二元交叉熵的分类损失函数 $\ell_f(.)$ 来建模片段分类器，如下：
在这里插入图片描述

$\Omega_k(\mathrm{\mathbf{X}})$ 是从 $s_\theta(\mathrm{\mathbf{F}})$ 中选择的具有最大 $\ell_2$ 范数特征的 $k$ 个片段的集合

损失函数 $\ell_f(.)$ 中还有时间平滑性约束和稀疏性约束：

$(f_\phi(s_\theta(\mathrm{\mathbf{f}}_t))-f_\phi(s_\theta(\mathrm{\mathbf{f}}_{t-1})))^2$ 表示时间平滑性约束，确保相邻片段具有类似的异常分数
$\sum_{t=1}^{T}||f_\phi(s_\theta(\mathrm{\mathbf{f}}_t))||$ 表示稀疏性约束，施加异常事件在每个异常视频中是稀有的先验

四、实验

4.1 数据集和评估方法

在专为弱监督视频异常检测任务而创建四个多场景基准数据集上进行评估

4.1.1 UCF-Crime

大规模数据集，包含来自真实世界街道和室内监控摄像头的1900个未剪辑视频，总时长128小时

数据集背景复杂多样
包含13类异常事件
训练集和测试集中正常和异常视频数量相同
1610个带有视频级标签的训练视频
290个带有帧级标签的测试视频

4.1.2 XD-Violence

是迄今为止公开的最大视频异常检测数据集，包含来自括真实电影、在线视频、体育直播、监控摄像头和CCTVs的4754个未剪辑视频，总时长超过217小时

训练集使用视频级标签
测试集使用帧级标签

4.1.3 ShanghaiTech

中等规模数据集，包含来自固定角度的街道视频监控的437个视频

有13个不同的背景场景
307个为正常视频
130个为异常视频

原始数据集是假设正常训练数据可用性的异常检测任务的常用基，所以它的训练数据集中没有标签，这里作者和Zhong等人使用了相同的过程，将原始数据集重组为弱监督训练集。我理解的是原来是只以正常视频为训练集，类似于哪种构建正常字典的吧。这里是如何重组的呢？我理解的是从原来的测试集中选择一部分异常视频，将他们放到训练集中，最终要使得训练集和测试集都覆盖了全部13个背景场景才行。

4.1.4 UCSD-Peds

小规模数据集，由两个子数据集（Ped1和Peds2）组成

Ped1有70个视频
Peds2有28个视频

随机选择6个异常视频和4个正常视频进入训练集，将剩余的视频作为测试集，就重组为了弱监督训练集。

4.1.5 评估方法

AUC（ROC曲线下的帧级面积）作为所有数据集的评估方法，越大越好
AP（平均精度）作为XD-Violence数据集的评估方法，越大越好

4.2 实现细节

特征提取

$T = 32$ ，即每个视频分成32个视频片段
$m = 100, k = 3$ ，每个实验都使用这个设置，这是(6)式中的，表示定义边界为100，取前3个特征幅度最大的片段
在 $S ec .3$ 中提到的3个FC层（我怎么不记得在哪里提到的？）
- 分别有512、128、1个结点
- 每层后面跟一个ReLU
- 再跟一个dropout，并且dropout rate = 0.7
2048D特征提取自预训练的I3D的 $mix\_5c层$
4096D特征提取自预训练的C3D的 $fc\_6$ 层
在MTN中，金字塔式的扩张率设置为1, 2, 4
- 每个扩张卷积分支使用了3 × 1的一维卷积（Conv1D）
- 3 × 1表示卷积核的大小为3，只在输入的一个维度上进行卷积操作（即沿着时间序列的维度）
在自注意力模块，使用1 × 1的一维卷积