Image/Video Deep Anomaly Detection: A Survey
图像或视频中异常检测综述
目录
Image/Video Deep Anomaly Detection: A Survey
4 Deep Image/Video Representation
7 Open Challenges and Future Directions
Abstract
异常检测与计算机视觉任务和图像处理都有很大的相关性。但是深度神经网络处理的方法处理cost太大。本综述将对基于DNN的异常检测方法进行深入学习。讨论未来可能的研究方向。
1 Introduction
异常检测的难点来源于异常的种类不固定,异常可以来自于任何一种区别于nomal未知的分布。所以比较难以学习。因此有人提出将所有正常数据的共性作为一个参考,测试时就将计算一个测试实例与模型的偏差,用这个偏差来评价该测试实例是否为异常。
异常件检测算法的弱点总结如下:
(1)高误报率,为了尽可能将异常检测出来,宁可错杀一万绝不放过一个的思想。。。。导致高误报。
(2)高计算成本。
(3)没有可供评估的标准数据集。可用数据与实际数据相差较大。但事实上真实的数据很重要。
基于(GANs)网络的计算开销大,复现困难。
2 Problem Formulation
如果U是未标记的图像或者视频帧,表示为,假设大多数符合正态分布()。那么异常件测就可以看做是,对于一个测试实例y,判断y是符合分布的过程。
式子中D为衡量是否符合分布的度量方式,F为提取特征的方法。
2.1 pN : Modeling Normal Data
对正常数据进行建模。第一建拟合一个预先定义的分布例如高斯分布【[Sabokrou et al., 2018a].】,但是数据维度太高分布太复杂所以用DNN特别是GAN来隐式的学习这种分布。
2.2 D: Detection Measure
对于式子(1)中的D必须能够对模型PN而言可以分开正常和异常样本。早起传统的方法,有例如:Mahalanobjs距离或者概率。最近的方法,隐式地学习了使用encoder-decoder和GANs。
3 Supervision
根据类别标签的可用性分为三个主要类别
Supervisied(N + A).
正常本多异常样本少导致严重类别不均,使得监督学习的结果是次优的。异常数据的多样性也会扰乱训练,所以实际上不可行。这一类的解决方案仅仅局限于非常有限的问题,比如某些应用明确异常的类别。
Semi-supervised(N + A + U).
现实中有大量未标记的数据,同时收集异常数据非常昂贵,获得完整的异常数据和正常数据训练是几乎不可能的。
[Ruff et al., 2019] Lukas Ruff, Robert A V andermeulen, Nico
G¨ ornitz, Alexander Binder, Emmanuel M¨ uller, Klaus-
Robert M¨ uller, and Marius Kloft. Deep semi-supervised
anomaly detection. In ICLR, 2019.
[Liu et al., 2019] Wen Liu, Weixin Luo, Zhengxin Li, Peilin
Zhao, Shenghua Gao, et al. Margin learning embedded pre-
diction for video anomaly detection with a few anomalies.
In IJCAI, pages 3023–3030, 2019.
Unsupervised (U)
在无监督的情况下训练模型意味着将AD任务应用于未标记的数据。在无监督的任务中,仅仅基于数据实例自身内在的属性来检测到异常值。在这种情况中可以做出唯一的假设,那即是与实际情况一样,在未标记的数据里异常情况很少发生。
4 Deep Image/Video Representation
4.1 Traditional Features
第一次提出的图像和视频异常检测的方法是基于轨迹的特征或者更低层的特征例如HOG,HOF,MBH。这几个方法都有共同的弱点:
尽管他们有一定的分类能力但是,都是计算成本高,能力差。此外也没有很强的鉴别能力会导致很高的FP rate.
视频的时间和空间特性对于异常检测任务起着至关重要的作用。深度学习中,普遍使用RNN、LSTM和3D-CNN来获取包含时间特征的AD任务。空间上通过加深网络层数来提取.
4.2 Deep Features
分为两种方法:特征学习和预训练的网络。
5 Deep Networks for AD
自监督学习和生成网络用来学习一个端到端的模型,用来准确的检测分布外的数据。
5.1 Self-supervised Learning
现实应用中,模型只访问正常数据或者最小化的异常数据。通过端到端训练神经网络来学习正常数据的分布。训练完成后,给定一个测试样本,输入到模型,如果不符合约束,即不符合分布,则认为该样本为异常数据。
Encoder-Decoder Based Methods
学习自编码器的网络参数,以精确重建训练实例,即正常数据。
这些网络参数通过等式2来训练:
其中D ( E ( X ) )是隐含学习正态数据分布的编解码网络。直接使用编码器-解码器进行重构,是拟合分布数据最简单的方法。虽然有效但是,假阳性检测有问题。
通过使用自编码器的潜在空间可以获得更好的结果。
虽然相对误差是区分正常和异常的有用便准,但是高误差并不是决定证据。
[Liu et al., 2018]通过U-Net作为深度自编码器来预测视频的下一帧,在训练阶段,神经网络的输入(时间t或It的帧)和输出(时间t + 1或It+1的帧)都是正常的,即遵循正常帧(pN)的分布。在测试阶段,如果某个帧明显偏离了预测值,则该帧被视为异常样本。
CNNs.
图像和视频维度过高,计算成本巨大,解决办法,通过分析神经网络对于不同类型输入数据的不同响应来检测分布不均匀的数据。这种方式不是端到端训练。
5.2 Generative Networks
GAN网络
缺点:训练昂贵,复现困难,模式崩溃
5.3 Anomaly Generation
GAN生成异常数据。。。
6 Datasets
Image:
MNIST、CIFAR-10和CIFAR-100、ImageNet、MVTec
UMN、UCSD、CUHK、UCF-Crime、ShanghaiTech Campus、Street Scene
7 Open Challenges and Future Directions
8 Conclusions
我们工作的主要集重点是无监督的技术。提供了一个精确的AD概念的精确定义,并对最近提出的AD方法进行了分类。