2018-CVPR-Real-world Anomaly Detection in Surveillance Videos
监控视频中的真实世界异常检测
摘要
监控视频能够捕捉到各种现实异常。在本文中,我们建议通过利用正常和异常视频来学习异常。为了避免在训练视频中标注异常片段(segments)或剪辑(clips)非常耗时,我们建议利用弱标记的训练视频,通过深度多实例排名框架来学习异常,即训练标签(异常或正常)在视频级别(video-level)而不是剪辑级别(clip-level)。在我们的方法中,我们将正常和异常视频视为包(bag),将视频片段视为多实例学习(MIL)
中的实例,并自动学习一个深度异常排名模型,该模型预测异常视频片段的高异常分数。此外,我们在排名损失函数中引入了稀疏性和时间平滑度约束,以在训练期间更好地定位异常。
我们还介绍了一个全新的大型 128 小时视频数据集
。它由1900长段未经剪辑的真实世界监控视频组成,包括打斗、车祸、入室盗窃、抢劫等13种现实异常和正常活动。该数据集可用于两项任务。首先,一般异常检测考虑了一组中的所有异常和另一组中的所有正常活动。其次,用于识别 13 种异常活动中的每一种。我们的实验结果表明,与最先进的方法相比,我们用于异常检测的 MIL 方法在异常检测性能上取得了显着改进。我们提供了最近几个关于异常活动识别的深度学习基线(baseline)的结果。这些基线的低识别性能表明我们的数据集非常具有挑战性,并为未来的工作开辟了更多机会。数据集位于:http://crcv.ucf.edu/projects/real-world/
1. 引言
监控摄像头越来越多地用于公共场所,例如街道、路口、银行、商场等,增加公共安全。然而,执法机构的监控能力并没有跟上。其结果是监控摄像头的利用存在明显不足,摄像头与人工监控器的比例也不可行。视频监控的一项关键任务是检测异常事件,例如交通事故、犯罪或非法活动。通常,与正常活动相比,异常事件很少发生。因此,为了减少人力和时间的浪费,开发用于自动视频异常检测的智能计算机视觉算法是当务之急。一个实用异常检测系统的目标是及时发出偏离正常模式的活动信号,并确定发生异常的时间窗口。因此,异常检测可以被认为是粗略的视频理解,它从正常模式中过滤掉异常。一旦检测到异常,就可以使用分类技术将其进一步分类为特定活动之一。
解决异常检测的一小步是开发算法来检测特定的异常事件,例如暴力检测器 [30] 和交通事故检测器 [23、35]。然而,很明显,这些解决方案不能推广到检测其他异常事件,因此它们在实践中的用途有限。
现实世界中的异常事件复杂多样的。很难列出所有可能的异常事件。因此,我们希望异常检测算法不依赖于有关事件的任何先验信息。换句话说,异常检测应该在最低限度的监督下进行。基于稀疏编码
的方法 [28、42] 被认为是实现最先进的异常检测结果的代表性方法。这些方法假设视频只有一小部分初始部分包含正常事件,因此初始部分用于构建正常事件字典。然后,异常检测的主要思想是异常事件不能从正常事件字典中准确重建。然而,由于监控摄像头捕捉到的环境会随着时间的推移发生巨大变化(例如,在一天的不同时间),这些方法会对不同的正常行为产生很高的误报率。
动机和贡献(Motivation and contributions)。尽管上述方法很有吸引力,但它们基于这样的假设,即任何偏离学习到的正常模式的模式都将被视为异常。然而,这个假设可能不成立,因为很难或不可能定义一个将所有可能的正常模式/行为都考虑在内的正常事件 [9]。更重要的是,正常行为和异常行为之间的界限往往是模糊的。此外,在现实条件下,同一行为在不同条件下可能是正常行为,也可能是异常行为。在本文中,我们提出了一种使用弱标记训练视频的异常检测算法。那就是我们只知道视频级别的标签,即一个视频是正常的或者在某个地方有异常,但我们不知道在哪里。这很有趣,因为我们可以通过仅分配视频级标签轻松地注释大量视频。为了制定弱监督学习方法,我们采用多实例学习 (MIL) [12, 4]。具体来说,我们建议通过深度 MIL 框架学习异常,方法是将正常和异常的监控视频视为包(bags),并将每个视频的短片段/剪辑(short segments/clips)视为包中的实例(instances)。基于训练视频,我们自动学习异常排名模型,预测视频中异常片段的高异常分数。在测试过程中,一个长时间未修剪的视频被分成多个片段并送入我们的深度网络,该网络为每个视频片段分配异常分数,以便检测到异常。综上所述,本文做出以下贡献。
- 我们提出了一种MIL解决方案,通过仅利用弱标记的训练视频来进行异常检测。我们提出了一种具有稀疏性和平滑性约束的MIL排名损失,用于深度学习网络学习视频片段的异常分数。
- 我们介绍了一个大型视频异常检测数据集,该数据集由1900个由监控摄像头捕捉到的13个不同异常事件和正常活动的真实监控视频组成。它是迄今为止最大的数据集,视频是现有最大异常数据集的 25 倍以上,总共有 128 小时的视频。
- 我们新数据集上的实验结果表明,与最先进的异常检测方法相比,我们提出的方法具有更高的性能。
- 由于活动的复杂性和较大的类内变化,我们的数据集还为未修剪视频的活动识别提供了具有挑战性的基准。我们提供了基线方法 C3D [37] 和 TCNN [21] 识别 13 种不同异常活动的结果。
2. 相关工作
异常检测。异常检测是计算机视觉中最具挑战性和长期存在的问题之一 [40、39、7、10、5、20、43、27、26、28、42、18、26]。对于视频监控应用程序,有多种尝试来检测视频中的暴力或攻击行为 [15、25、11、30]。Datta 等人提出通过利用人的运动和肢体方向来检测人类暴力行为。Kooij 等人 [25] 使用视频和音频数据来检测监控视频中的攻击行为。Gao 等人提出了暴力流描述符来检测人群视频中的暴力行为。最近,Mohammadi 等人 [30] 提出了一种新的基于行为启发式的方法来对暴力和非暴力视频进行分类。
除了暴力和非暴力模式的区分之外,[39, 7] 中的作者还提议使用跟踪来模拟人们的正常运动,并将偏离正常运动的情况检测为异常。由于难以获得可靠的轨迹,一些方法通过基于直方图的方法[10]、主题建模[20]、运动模式[32]、社会力模型[29]、动态纹理混合模型[27]、局部时空卷上的隐马尔可夫模型[26]和上下文驱动方法[43]来避免跟踪和学习全局运动模式。根据正常行为的训练视频,这些方法学习正常运动模式的分布并将低概率模式检测为异常。
随着稀疏表示和字典学习方法在几个计算机视觉问题中的成功,[28, 42] 中的研究人员使用稀疏表示来学习正常行为的字典。在测试过程中,具有较大重建误差的模式被认为是异常行为。由于深度学习用于图像分类的成功演示,已经提出了几种用于视频动作分类的方法 [24、37]。然而,获取用于训练的注释既困难又费力,特别是对于视频。
最近,[18, 40] 使用基于深度学习的自动编码器来学习正常行为的模型,并使用重建损失来检测异常。我们的方法不仅考虑正常行为,还考虑异常行为,仅使用弱标记的训练数据进行异常检测。
排名 (Ranking)。排名学习是机器学习中一个活跃的研究领域。这些方法主要侧重于提高项目的相对分数而不是单个分数。Joachims 等人 [22] 提出了 rank-SVM 来提高搜索引擎的检索质量。Bergeron 等人 [8] 提出了一种使用连续线性规划解决多实例排序问题的算法,并展示了其在计算化学中的氢提取问题中的应用。最近,深度排名网络已用于多种计算机视觉应用,并显示出最先进的性能。它们已被用于特征学习 [38]、高亮检测 [41]、图形交换格式(GIF)生成 [17]、人脸检测和验证 [33]、人物再识别 [13]、地点识别 [6]、 度量学习和图像检索[16]。所有深度排名方法都需要大量的正、负样本标注。
与现有方法相比,我们通过利用正常和异常数据在排名框架中将异常检测制定为回归问题(我们称之为回归,因为我们将特征向量映射到异常分数( 0 − 1 0-1 0−1))。为了减轻获得精确片段级标签(即视频中异常部分的时间注释)进行训练的难度,我们利用依赖于弱标记数据(即视频级标签——正常或异常,这比时间注释更容易获得)的多实例学习来学习异常模型,并在测试期间检测视频片段级别的异常。
3. 提出的异常检测方法
所提出的方法(在图 1 中进行了总结)首先在训练期间将监控视频分成固定数量的片段。这些片段在包中生成实例。使用正(异常)和负(正常)包,我们使用提出的深度 MIL 排序损失来训练异常检测模型。
3.1. 多实例学习
在使用支持向量机的标准监督分类问题中,所有正例和负例的标签都是可用的,并且使用以下优化函数
学习分类器:
其中 ① 是铰链损失
,
y
i
y_i
yi 表示每个示例的标签,
ϕ
(
x
)
\phi(x)
ϕ(x) 表示图像块或视频片段的特征表示,
b
b
b 是偏差,
k
k
k 是训练示例的总数,
w
\mathbf{w}
w 是要学习的分类器。要学习一个鲁棒的分类器,需要对正例和负例进行准确的注释。在监督异常检测的背景下,分类器需要视频中每个片段的时间注释。然而,获取视频的时间注释既费时又费力。
MIL 放宽了具有这些准确时间注释的假设。在 MIL 中,视频中异常事件的精确时间位置是未知的。相反,只需要指示整个视频中存在异常的视频级标签。包含异常的视频被标记为正(positive),没有任何异常的视频被标记为负(negative)。然后,我们将一个正视频表示为一个正包
B
a
\mathcal{B}_a
Ba,其中不同的时间段在包中生成单独的实例,
(
p
1
,
p
2
,
.
.
.
,
p
m
)
(p^1,\ p^2,\ .\ .\ .\ ,\ p^m)
(p1, p2, . . . , pm),其中
m
m
m 是包中的实例数。我们假设这些实例中至少有一个包含异常。类似地,负视频由一个负包
B
n
\mathcal{B}_n
Bn 表示,其中该包中的时间段形成负实例
(
n
1
,
n
2
,
.
.
.
,
n
m
)
(n^1,\ n^2,\ .\ .\ .\ ,\ n^m)
(n1, n2, . . . , nm)。在负包中,没有一个实例包含异常。由于正实例的确切信息(即实例级标签)是未知的,因此可以针对每个包中的最大得分实例优化目标函数
[4]:
其中 Y B j Y_{\mathcal{B}_j} YBj 表示包级(bag-level)标签, z z z 是包总数,所有其他变量与等式 1 中相同。
3.2. 深度 MIL 排名模型
异常行为很难准确定义 [9],因为它非常主观并且因人而异。此外,如何将 1/0 标签分配给异常并不明显。此外,由于缺乏足够的异常示例,异常检测通常被视为低似然模式检测而不是分类问题 [10、5、20、26、28、42、18、26]。
在我们提出的方法中,我们将异常检测作为一个回归问题。我们希望异常视频片段的异常分数高于正常片段。直接的方法是使用排名损失
,与正常片段相比,它鼓励异常视频片段获得高分,例如:
其中 V a \mathcal{V}_a Va 和 V n \mathcal{V}_n Vn 代表异常和正常视频片段, f ( V a ) f(\mathcal{V}_a) f(Va) 和 f ( V n ) f(\mathcal{V}_n) f(Vn) 分别代表相应的预测异常分数,范围从 0 0 0 到 1 1 1。如果在训练期间知道片段级注释,则上述排名函数应该可以很好地工作。
然而,在没有视频片段级别注释的情况下,我们无法使用等式 3。相反,我们提出以下多实例排名目标函数
:
其中
m
a
x
max
max 负责每个包中的所有视频片段。我们不是对包的每个实例都进行排名,而是仅对正包(positive bag)和负包(negative bag)中分别具有最高异常分数的两个实例进行排名。正包中异常得分最高的片段最有可能是真阳性实例(异常片段)。负包中异常得分最高的段对应的是看起来最像异常段但实际上是正常实例的段。在异常检测中,该负例被认为是硬例(hard instance),可能会在异常检测中产生误报(false alarm)。通过使用等式 4,我们希望在异常分数方面使正例和负例相距的很远。因此,我们在铰链损失公式中的排名损失
如下:
上述损失的一个局限性是它忽略了异常视频的潜在时间结构。首先,在现实场景中,异常往往只发生很短的时间。在这种情况下,异常包中实例(段)的分数应该是稀疏的,表明只有少数段可能包含异常。其次,由于视频是一个片段序列,异常分数应该在视频片段之间平稳变化。因此,我们通过最小化相邻视频片段的分数差异来强制时间相邻视频片段的异常分数之间的时间平滑。通过在实例分数上加入稀疏性和平滑度约束
,损失函数变为
其中 ① 表示时间平滑项,② 表示稀疏项。在这个 MIL 排名损失中,误差是从正负包中得分最高的视频片段反向传播的。通过对大量正负包和负包进行训练,我们预计网络将学习一个通用模型来预测正包中异常片段的高分(见图 8)。最后,我们完整的目标函数
由下式给出
其中 W \mathcal{W} W 代表模型权重。
包编队(Bags Formations)。我们将每个视频分成相等数量的非重叠时间片段,并将这些视频片段用作包实例。给定每个视频片段,我们提取 3D 卷积特征 [37]。我们使用这种特征表示是因为它的计算效率和在视频动作识别中捕捉外观和运动动态的明显能力。
4. 数据集
4.1. 以前的数据集
我们在本节中简要回顾现有的视频异常检测数据集。UMN 数据集 [2] 由五个不同的分阶段视频组成,人们在视频中四处走动,一段时间后开始向不同方向奔跑。异常的特点是只有跑步动作。UCSD Ped1 和 Ped2 数据集 [27] 分别包含 70 和 28 个监控视频。这些视频仅在一个位置捕获。视频中的异常现象很简单,并不能反映视频监控中的真实异常情况,例如走过人行道的人,人行道上的非行人实体(溜冰者,骑自行车的人和轮椅)。Avenue 数据集 [28] 由 37 个视频组成。尽管它包含更多异常,但它们是在一个位置上演和捕获的。与 [27] 类似,该数据集中的视频很短,并且一些异常是不真实的(例如扔纸)。Subway Exit 和 Subway Entrance 数据集 [3] 各包含一段长监控视频。这两个视频捕获了简单的异常情况,例如走错方向和不付款。BOSS [1] 数据集是从安装在火车上的监控摄像头收集的。它包含骚扰、患有疾病的人、恐慌情况等异常情况,以及正常的视频。所有异常都是由演员表演的。异常人群(Abnormal Crowd) [31] 引入了一个人群异常数据集,其中包含 31 个仅包含拥挤场景的视频。总体而言,以前用于视频异常检测的数据集在视频数量或视频长度方面都很小。异常的变化也是有限的。此外,有些异常是不现实的。
4.2. 我们的数据集
由于以前数据集的局限性,我们构建了一个新的大规模数据集来评估我们的方法。它由未经剪辑的长监控视频组成,涵盖了 13 种现实世界的异常现象,包括虐待、逮捕、纵火、殴打、事故、入室盗窃、爆炸、打架、抢劫、枪击、偷窃、入店行窃和暴力行为。选择这些异常是因为它们对公共安全有重大影响。我们将我们的数据集与表 1 中以前的异常检测数据集进行了比较。
视频采集。为了确保数据集的质量,我们训练了十名标注员(具有不同水平的计算机视觉专业知识)来收集数据集。我们在 YouTube 和 LiveLeak 1 上搜索每个异常的视频,使用文本搜索查询(有轻微变化,例如“车祸”,“交通事故”)。为了检索尽可能多的视频,我们还对每个异常使用不同语言(例如法语、俄语、中文等)的文本查询,这要归功于谷歌翻译。我们会删除属于以下任何一种情况的视频:手动编辑、恶作剧视频、非闭路电视摄像机拍摄、取自新闻、使用手持相机拍摄以及包含编辑的视频。我们还丢弃异常不明显的视频。通过上述视频剪枝约束,收集了 950 个未经编辑的真实世界监控视频,这些视频具有明显的异常。使用相同的约束条件,收集了 950 个正常视频,导致我们的数据集中共有 1900 个视频。在图 2 中,我们展示了来自每个异常的示例视频的四帧。
标注。对于我们的异常检测方法,训练只需要视频级标签。然而,为了评估其在测试视频上的性能,我们需要知道时间注释,即每个测试异常视频中异常事件的开始和结束帧。为此,我们将相同的视频分配给多个注释者以标记每个异常的时间范围。最终的时间注释是通过对不同注释者的标注进行平均得到的。经过几个月的努力,完整的数据集最终确定。
训练和测试集。我们将数据集分为两部分:由 800 个正常视频和 810 个异常视频组成的训练集(详情如表 2 所示)和其余 150 个正常视频和 140 个异常视频的测试集。训练集和测试集都包含视频中不同时间位置的所有 13 个异常。此外,一些视频有多个异常。图 3 显示了训练视频在长度(以分钟为单位)方面的分布。每个测试视频中的帧数和异常百分比分别显示在图 4 和图 5 中。
5. 实验
5.1. 实现细节
我们从 C3D 网络 [37] 的全连接(FC)层 FC6 中提取视觉特征。在计算特征之前,我们将每个视频帧的大小调整为 240 × 320 240×320 240×320 像素,并将帧速率固定为 30 30 30 fps。我们为每个 16 16 16 帧视频剪辑计算 C3D 特征,然后进行 l 2 l_2 l2 归一化。为了获得视频片段的特征,我们取该片段内所有 16 16 16 帧剪辑特征的平均值。我们将这些特征(4096D)输入到 3 层 FC 神经网络。第一个 FC 层有 512 512 512 个单元,然后是 32 32 32 个单元和 1 1 1 个单元 FC 层。在 FC 层之间使用 60 60% 60 dropout 正则化 [34]。我们分别对第一个和最后一个 FC 层分别使用 ReLU [19] 激活和 Sigmoid 激活,并使用初始学习率为 0.001 0.001 0.001 的 Adagrad [14] 优化器。MIL 排序损失中的稀疏性和平滑度约束参数设置为 λ 1 = λ 2 = 8 × 10 − 5 \lambda_1=\lambda_2=8\times{10}^{-5} λ1=λ2=8×10−5 和 λ 3 = 0.01 \lambda_3=0.01 λ3=0.01 以获得最佳性能。
我们将每个视频分成 32 32 32 个不重叠的片段,并将每个视频片段视为包的一个实例。段数(32)是凭经验设置的。我们还尝试了多尺度重叠时间段,但它不影响检测精度。我们随机选择 30 30 30 个正包和 30 30 30 个负包作为 minibatch。我们使用 Theano [36] 在计算图上通过反向模式自动微分来计算梯度。然后我们计算损失,如等式 6 和 等式 7所示,并反向传播整个批次的损失。
评估指标。继之前关于异常检测的工作 [27] 之后,我们使用基于帧的接收器操作特性(ROC
)曲线和相应的曲线下面积(AUC
)来评估我们方法的性能。我们不使用等错误率(EER
)[27],因为它不能正确测量异常,特别是如果只有一小部分长视频包含异常行为时。
5.2. 与先进水平的比较
我们将我们的方法与两种最先进的异常检测方法进行比较。Lu 等人 [28] 提出了基于字典的方法来学习正常行为,并使用重建错误来检测异常。按照他们的代码,我们从每个正常训练视频中提取 7000 个长方体,并计算每个体积中基于梯度的特征。在使用 PCA 降低特征维度后,我们使用稀疏表示学习字典。Hasan 等人 [18] 提出了一种基于完全卷积前馈深度自动编码器的方法来学习局部特征和分类器。使用他们的实现,我们使用 40 帧的时间窗口在正常视频上训练网络。与[28]类似,重建误差用于测量异常。我们保持这种方法的模型训练设置与我们提出的方法相似,即每个包中的 32 个视频片段,使用 C3D 计算特征。此外,我们还使用二元 SVM 分类器作为基线方法。具体来说,我们将所有异常视频视为一类,将正常视频视为另一类。为每个视频计算 C3D 特征,并使用线性核训练二元分类器。为了进行测试,该分类器提供了每个视频剪辑 (clips) 异常的概率。
图 6 和表 3 显示了 ROC 和 AUC 方面的定量比较。我们还比较了我们的方法在有和没有平滑和稀疏约束的情况下的结果。结果表明,我们的方法明显优于现有方法。特别是,我们的方法在低误报率(假阳性率 0.1 − 0.3 0.1-0.3 0.1−0.3)下实现了比其他方法高得多的真阳性率。
二元分类器结果表明,传统的动作识别方法不能用于现实世界监控视频中的异常检测。这是因为我们的数据集包含未修剪的长视频,其中异常现象大多在短时间内发生。因此,从这些未修剪的训练视频中提取的特征对于异常事件的区分度不够。在实验中,二元分类器对几乎所有测试视频都产生非常低的异常分数。[28] 学习的字典不够健壮,无法区分正常模式和异常模式。除了为视频的正常部分产生低重建误差外,它还为异常部分产生低重建误差。Hasan 等人 [18] 很好地学习了正常模式。然而,即使对于新的正常模式,它也往往会产生高异常分数。我们的方法比 [18] 表现得更好,证明了它的有效性。
在图 7 中,我们展示了我们的方法在八个视频上的定性结果。(a)-(d) 显示四个具有异常事件的视频。我们的方法通过为异常帧生成高异常分数来成功和及时地检测这些异常。(e) 和 (f) 是两个普通视频。我们的方法在整个视频中产生低异常分数(接近 0 0 0),从而使两个正常视频的误报为零。我们还在 (g) 和 (h) 中说明了两个失败案例。具体来说,(g) 是一个异常视频,其中包含入室盗窃事件(有人通过窗户进入办公室)。由于场景的黑暗(夜间视频),我们的方法未能检测到异常部分。此外,它会产生误报,主要是由于摄像机前的飞虫遮挡。在 (h) 中,我们的方法由于人群突然聚集(在街上观看接力赛)而产生误报。换句话说,它无法识别正常的群体活动。
5.3. 对所提方法的分析
模型训练。所提出方法的基本假设是,给定大量带有视频级标签的正视频和负视频,网络可以自动学习预测视频中异常的位置。为了实现这一目标,网络应该学会在训练迭代期间为异常视频片段产生高分。图 8 显示了训练异常示例在迭代过程中异常分数的演变。在 1,000 次迭代时,网络预测异常和正常视频片段的高分。在 3,000 次迭代之后,网络开始对正常段产生低分并保持异常段的高分。随着迭代次数的增加和网络看到更多视频,它会自动学习精确定位异常。请注意,尽管我们不使用任何段级注释,但网络能够根据异常分数预测异常的时间位置。
误报率。在现实环境中,监控视频的主要部分是正常的。鲁棒的异常检测方法应该对正常视频具有低误报率。因此,我们仅在普通视频上评估我们的方法和其他方法的性能。表 4 列出了不同方法在 50% 阈值时的误报率。我们的方法的误报率比其他方法低得多,表明该异常检测系统在实践中具有更强的鲁棒性。这验证了使用异常视频和正常视频进行训练有助于我们的深度 MIL 排名模型学习更一般的正常模式。
5.4. 异常活动识别实验
我们的数据集可以用作异常活动识别基准,因为我们在数据收集期间有异常视频的事件标签,但不用于我们上面讨论的异常检测方法。对于活动识别,我们使用每个事件的 50 个视频并将它们分成 75/25 的比例进行训练和测试。我们基于 4 折交叉验证为数据集的活动识别提供了两个基线结果。对于第一个基线,我们通过对每个 16 帧剪辑的 C3D [37] 特征进行平均,然后进行 L2 归一化来构建一个 4096-D 特征向量。特征向量用作最近邻分类器的输入。第二个基线是管卷积神经网络 (TCNN) [21],它引入感兴趣管 (ToI) 池化层来替换 C3D 管道中的第 5 层和 3d-max-池化层。ToI 池化层聚合所有剪辑的特征,并为整个视频输出一个特征向量。图 9 和表 5 给出了定量结果,即混淆矩阵和准确度。这些最先进的动作识别方法在此数据集上表现不佳。这是因为视频是长时间未修剪的监控视频,而且类内差异非常大。因此,我们的数据集是用于异常活动识别的独特且具有挑战性的数据集。
6. 结论
我们提出了一种深度学习方法来检测监控视频中的真实世界异常。由于这些现实异常的复杂性,仅使用正常数据可能不是异常检测的最佳方法。我们试图同时利用正常和异常视频。为了避免训练视频中异常片段的时间注释,我们使用弱标记数据的深度MIL框架学习了一种通用的异常检测模型。为了验证所提出的方法,引入了一个新的由各种真实世界异常组成的大规模异常数据集。在该数据集上的实验结果表明,我们提出的异常检测方法明显优于基线方法。此外,我们证明了我们的数据集对异常活动识别任务的有用性。
参考文献
[1] http://www.multitel.be/image/researchdevelopment/research-projects/boss.php.
[2] Unusual crowd activity dataset of university of minnesota. In http://mha.cs.umn.edu/movies/crowdactivity-all.avi.
[3] A. Adam, E. Rivlin, I. Shimshoni, and D. Reinitz. Robust real-time unusual event detection using multiple fixedlocation monitors. TPAMI, 2008.
[4] S. Andrews, I. Tsochantaridis, and T. Hofmann. Support vector machines for multiple-instance learning. In NIPS, pages 577–584, Cambridge, MA, USA, 2002. MIT Press.
[5] B. Anti and B. Ommer. Video parsing for abnormality detection. In ICCV, 2011.
[6] R. Arandjelovi´c, P . Gronat, A. Torii, T. Pajdla, and J. Sivic. NetVLAD: CNN architecture for weakly supervised place recognition. In CVPR, 2016.
[7] A. Basharat, A. Gritai, and M. Shah. Learning object motion patterns for anomaly detection and improved object detection. In CVPR, 2008.
[8] C. Bergeron, J. Zaretzki, C. Breneman, and K. P . Bennett. Multiple instance ranking. In ICML, 2008.
[9] V . Chandola, A. Banerjee, and V . Kumar. Anomaly detection: A survey. ACM Comput. Surv., 2009.
[10] X. Cui, Q. Liu, M. Gao, and D. N. Metaxas. Abnormal detection using interaction energy potentials. In CVPR, 2011.
[11] A. Datta, M. Shah, and N. Da Vitoria Lobo. Person-onperson violence detection in video data. In ICPR, 2002.
[12] T. G. Dietterich, R. H. Lathrop, and T. Lozano-Pérez. Solving the multiple instance problem with axis-parallel rectangles. Artificial Intelligence, 89(1):31–71, 1997.
[13] S. Ding, L. Lin, G. Wang, and H. Chao. Deep feature learning with relative distance comparison for person re-identification. Pattern Recognition, 48(10):2993–3003, 2015.
[14] J. Duchi, E. Hazan, and Y . Singer. Adaptive subgradient methods for online learning and stochastic optimization. J. Mach. Learn. Res., 2011.
[15] Y . Gao, H. Liu, X. Sun, C. Wang, and Y . Liu. Violence detection using oriented violent flows. Image and Vision Computing, 2016.
[16] A. Gordo, J. Almazán, J. Revaud, and D. Larlus. Deep image retrieval: Learning global representations for image search. In ECCV, 2016.
[17] M. Gygli, Y . Song, and L. Cao. Video2gif: Automatic generation of animated gifs from video. In CVPR, June 2016.
[18] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis. Learning temporal regularity in video sequences. In CVPR, June 2016.
[19] G. E. Hinton. Rectified linear units improve restricted boltzmann machines vinod nair. In ICML, 2010.
[20] T. Hospedales, S. Gong, and T. Xiang. A markov clustering topic model for mining behaviour in video. In ICCV, 2009.
[21] R. Hou, C. Chen, and M. Shah. Tube convolutional neural network (t-cnn) for action detection in videos. In ICCV, 2017.
[22] T. Joachims. Optimizing search engines using clickthrough data. In ACM SIGKDD, 2002.
[23] S. Kamijo, Y . Matsushita, K. Ikeuchi, and M. Sakauchi. Traffic monitoring and accident detection at intersections. IEEE Transactions on Intelligent Transportation Systems, 1(2):108–118, 2000.
[24] A. Karpathy, G. Toderici, S. Shetty, T. Leung, R. Sukthankar, and L. Fei-Fei. Large-scale video classification with convolutional neural networks. In CVPR, 2014.
[25] J. Kooij, M. Liem, J. Krijnders, T. Andringa, and D. Gavrila. Multi-modal human aggression detection. Computer Vision and Image Understanding, 2016.
[26] L. Kratz and K. Nishino. Anomaly detection in extremely crowded scenes using spatio-temporal motion pattern models. In CVPR, 2009.
[27] W. Li, V . Mahadevan, and N. V asconcelos. Anomaly detection and localization in crowded scenes. TPAMI, 2014.
[28] C. Lu, J. Shi, and J. Jia. Abnormal event detection at 150 fps in matlab. In ICCV, 2013.
[29] R. Mehran, A. Oyama, and M. Shah. Abnormal crowd behavior detection using social force model. In CVPR, 2009.
[30] S. Mohammadi, A. Perina, H. Kiani, and M. Vittorio. Angry crowds: Detecting violent events in videos. In ECCV, 2016.
[31] H. Rabiee, J. Haddadnia, H. Mousavi, M. Kalantarzadeh, M. Nabi, and V . Murino. Novel dataset for fine-grained abnormal behavior understanding in crowd. In 2016 13th IEEE International Conference on Advanced Video and Signal Based Surveillance (A VSS), 2016.
[32] I. Saleemi, K. Shafique, and M. Shah. Probabilistic modeling of scene dynamics for applications in visual surveillance. TPAMI, 31(8):1472–1485, 2009.
[33] A. Sankaranarayanan, S. Alavi and R. Chellappa. Triplet similarity embedding for face verification. arXiv preprint arXiv:1602.03418, 2016.
[34] N. Srivastava, G. Hinton, A. Krizhevsky, I. Sutskever, and R. Salakhutdinov. Dropout: A simple way to prevent neural networks from overfitting. J. Mach. Learn. Res., 2014.
[35] W. Sultani and J. Y . Choi. Abnormal traffic detection using intelligent driver model. In ICPR, 2010.
[36] Theano Development Team. Theano: A Python framework for fast computation of mathematical expressions. arXiv preprint arXiv:1605.02688, 2016.
[37] D. Tran, L. Bourdev, R. Fergus, L. Torresani, and M. Paluri. Learning spatiotemporal features with 3d convolutional networks. In ICCV, 2015.
[38] J. Wang, Y . Song, T. Leung, C. Rosenberg, J. Wang, J. Philbin, B. Chen, and Y . Wu. Learning fine-grained image similarity with deep ranking. In CVPR, 2014.
[39] S. Wu, B. E. Moore, and M. Shah. Chaotic invariants of lagrangian particle trajectories for anomaly detection in crowded scenes. In CVPR, 2010.
[40] D. Xu, E. Ricci, Y . Y an, J. Song, and N. Sebe. Learning deep representations of appearance and motion for anomalous event detection. In BMVC, 2015.
[41] T. Y ao, T. Mei, and Y . Rui. Highlight detection with pairwise deep ranking for first-person video summarization. In CVPR, June 2016.
[42] B. Zhao, L. Fei-Fei, and E. P . Xing. Online detection of unusual events in videos via dynamic sparse coding. In CVPR, 2011.
[43] Y . Zhu, I. M. Nayak, and A. K. Roy-Chowdhury. Contextaware activity recognition and anomaly detection in video. In IEEE Journal of Selected Topics in Signal Processing, 2013.