阅读笔记（2019）Deep Learning for Anomaly Detection: A Survey

最新推荐文章于 2024-11-17 20:31:22 发布

ac同学

最新推荐文章于 2024-11-17 20:31:22 发布

阅读量4.6k

点赞数 7

分类专栏： papers 文章标签：大数据 python 算法神经网络

本文链接：https://blog.csdn.net/qq_40305043/article/details/106403822

版权

papers 专栏收录该内容

8 篇文章

订阅专栏

原文：https://www.researchgate.net/publication/330357393_Deep_Learning_for_Anomaly_Detection_A_Survey

论文首先对基于深度学习的异常检测的研究方法进行了系统全面的概述。此外，还回顾了这些方法在不同应用领域中的应用，并评估了它们的有效性。

根据基本的假设和采用的方法，将最先进的深度异常检测研究技术分为不同的类别。在每个类别中，作者概述了基本的异常检测技术及其变体，并提出了区分正常和异常行为的关键假设。

对于每个类别，论文也提出了优点和限制，并讨论了在实际应用领域的技术的计算复杂度。最后，概述了在应用深度异常检测技术解决实际问题时，研究中存在的问题和面临的挑战。

下图是这篇综述涵盖的研究方法和应用领域：

在这里插入图片描述

1.深度异常检测的应用

论文讨论了深度异常检测的几种应用（Intrusion Detection 入侵检测、Fraud Detection 欺诈识别、Malware Detection 恶意软件检测、Medical Anomaly Detection 医学异常检测、Deep learning for Anomaly detection in Social Networks 深度学习用于社交网络中的异常检测、Log Anomaly Detection 日志异常检测、Internet of things (IoT) Big Data Anomaly Detection 物联网（IoT）大数据异常检测、Industrial Anomalies Detection 工业异常检测、Anomaly Detection in Time Series 时间序列中的异常检测、Video Surveillance 视频监控）。

对于每个应用程序领域，讨论以下四个方面：
-异常的概念；
-数据的性质；
-与检测异常有关的挑战；
-现有的深度异常检测技术。

1.1 Intrusion Detection 入侵检测

入侵检测系统（IDS）是指识别与计算机相关的系统中的恶意活动（Phoha [2002]）。 IDS可以部署在单台计算机上称为主机入侵检测（HIDS），也可以部署到大型网络上称为网络入侵检测（NIDS）。用于入侵检测的深度异常检测技术的分类如下图。根据检测方法，IDS分为基于签名的或基于异常的。使用基于签名的IDS不能有效地检测新的攻击，因为新的攻击没有可用的特定签名模式，因此基于异常的检测方法更加流行。

Classification of deep learning methods for Intrusion Detection.

1.1.1 Host-Based Intrusion Detection Systems (HIDS):

此类系统安装了软件程序，该软件程序通过侦听该主机中发生的系统调用或事件来监视单个主机或计算机是否存在恶意活动或违反策略的行为。系统调用日志可以通过程序生成，也可以通过用户交互生成日志。恶意交互导致这些系统调用以不同的顺序执行。 HIDS还可以监视系统的状态，其在随机存取存储器（RAM）中，文件系统，日志文件中或其他地方的存储信息，以获取有效序列。需要使用应用于HIDS的深度异常检测（DAD）技术来处理数据的可变长度和序列性质。 DAD技术必须对序列数据建模或计算序列之间的相似度，一些用于HIDS的成功的DAD技术：

在这里插入图片描述

1.2.1 Network Intrusion Detection Systems (NIDS):

NIDS系统通过检查每个网络数据包来监视整个网络的可疑流量。由于实时流媒体的行为，数据的本质就等同于大数据的高容量、高速度和多样性。网络数据还具有与之相关的时间方面。表4说明了一些成功的用于NIDS的DAD技术。本调查还列出了表5中用于评估DAD入侵检测方法的数据集。DAD技术在入侵检测中面临的一个挑战是，随着入侵者调整其网络攻击以逃避现有的入侵检测解决方案，异常的性质会随着时间不断变化。

在这里插入图片描述

1.2 Fraud Detection 反欺诈

1.2.1 Banking fraud

信用卡欺诈涉及盗窃支付卡详细信息，并将其用作交易中的欺诈资金来源。过去几年中已经提出了许多用于信用卡欺诈检测的技术，一些DAD技术如表6所示。

在这里插入图片描述

信用卡欺诈检测中的挑战是欺诈没有一致的模式。信用卡欺诈检测的典型方法是维护每个用户的使用情况配置文件，并监视用户配置文件以检测任何偏差。由于有数十亿的信用卡用户，因此这种用户配置文件方法的技术不是很可扩展。由于DAD技术固有的可扩展性，因此技术在信用卡欺诈检测中得到了广泛的采用。

1.2.2 Mobile cellular network fraud

移动蜂窝网络现在面临着欺诈，如语音诈骗的目标是窃取客户的私人信息，和短信相关的诈骗敲诈客户的钱。由于移动蜂窝网络的容量和速度，检测这样的欺诈是至关重要的，并且不是一项容易的任务。传统的基于静态特征工程技术的机器学习方法已经不能适应不断进化的欺诈的本质。表7列出了移动蜂窝网络欺诈检测的DAD技术。

在这里插入图片描述

1.2.3 Insurance fraud

用于欺诈检测的传统方法基于作为欺诈指示符的特征。这些传统方法的挑战在于，需要人工专业知识来提取健壮的特征。另一个挑战是保险欺诈检测，因为欺诈的发生率远远少于索赔总数，而且每种欺诈在其方式上都是独特的。为了克服这些限制，提出了几种DAD技术，如表8所示。

在这里插入图片描述

1.2.4 Healthcare fraud

医疗保险索赔欺诈是增加医疗成本的一个重要因素，表9概述了用于医疗欺诈识别的DAD方法。

在这里插入图片描述

1.3 Malware Detection 恶意软件检测

恶意软件在本质上具有很强的适应性，攻击者会使用先进的技术来隐藏恶意行为。表10显示了一些有效应对这些挑战和检测恶意软件的DAD技术。

在这里插入图片描述

1.4 Medical Anomaly Detection 医学异常检测

基于深度学习的体系结构被成功地用于检测医学异常，如表11所示。医学领域中大量的不平衡数据对异常值的检测提出了巨大的挑战。长期以来，深度学习技术一直被认为是黑盒技术。尽管深度学习模型产生了出色的表现，但这些模型缺乏解释能力。近年来，人们提出了具有良好解释能力的模型，并证明这些模型能够产生最先进的性能(Gugulothu et al.， Amarasinghe et al. [2018b]， Choi[2018])。

在这里插入图片描述

1.5 Deep learning for Anomaly detection in Social Networks 深度学习用于社交网络中的异常检测

社会网络中的异常是指社会网络中个体不规则的、往往是非法的行为模式;这些人可能会被认定为垃圾邮件发送者、性侵犯者、网络骗子、虚假用户或造谣者。对传统异常检测技术及其在检测社交网络异常方面的挑战的研究是文献中一个很好的研究主题(Liu and Chawla [2017]， Savage et al. [2014]， Anand et al. [2017]， Yu et al. [2016]， Cao et al. [2018b]， Yu et al.[2016])。数据的异构性和动态性给DAD技术带来了重大挑战。尽管存在这些挑战，表12中所示的一些DAD技术仍然胜过最先进的方法。

在这里插入图片描述

1.6 Log Anomaly Detection 日志异常检测

日志文件中异常检测的目的是查找文本，以显示系统故障的原因和性质。最常见的是，根据过去的经验构造特定于领域的正则表达式，通过模式匹配发现新的错误。这种方法的局限性在于，较新的失败消息很容易被检测不到(Memon[2008])。日志数据在格式和语义上的非结构化和多样性给日志异常检测带来了巨大的挑战。异常检测技术应适应生成的日志数据并发集，实时检测离群点。随着深度神经网络在实时文本分析中的成功，表13所示的几种DAD技术显示出作为自然语言序列的日志数据在检测离群值方面非常有效。

在这里插入图片描述

1.7 Internet of things (IoT) Big Data Anomaly Detection 物联网（IoT）大数据异常检测

1.8 Industrial Anomalies Detection 工业异常检测

利用深度学习模型检测早期工业损害的几篇论文显示了巨大的前景(Atha and Jahanshahi [2018]， de Deijn [2018]， Wang et al. [2018c])。设备损坏是一种罕见的事件，因此检测此类事件可以表述为离群检测问题。在这个领域中，与离群值检测相关的挑战是数据量和数据的动态特性，因为故障是由各种因素引起的。表15说明了不同行业使用的一些DAD技术。

在这里插入图片描述

1.9 Anomaly Detection in Time Series 时间序列中的异常检测

在持续时间内连续记录的数据称为时间序列。时间序列数据可以大致分为单变量和多变量时间序列。在文献中，单变量和多变量时间序列中的异常类型可分为以下几类：（1）点异常。 8.4.1（2）上下文异常8.4.2（3）集体异常8.4.3。近年来，已提出了许多深度学习模型，用于检测单变量和多变量时间序列数据中的异常，如表16和表17所示。

在这里插入图片描述

使用深度学习模型检测时间序列数据异常的一些挑战是：

缺乏可定义异常发生的模式。
输入数据中的噪声严重影响算法的性能。
随着时间序列数据长度的增加，计算复杂度也随之增加。
时间序列数据通常是非平稳、非线性和动态演化的。因此，DAD模型应该能够实时检测异常。

1.10 Video Surveillance 视频监控

已有多篇文章对目前最先进的视频异常检测深度模型进行了研究，并根据模型类型和检测标准对其进行了分类(Kiran et al. [2018]， Chong and Tay[2015])。Boghossian和Black[2005]详细讨论了健壮的24/7视频监视系统的挑战。在实际的视频监控中，缺乏对异常的明确定义是一个严重的问题，这也阻碍了DAD方法的执行。视频监控中使用的DAD技术如表19所示。

在这里插入图片描述

2.Deep Anomaly Detection (DAD) Models 深度异常检测模型

根据标签的可用性和培训目标分类的各种DAD模型。对于每个模型类型域，讨论以下四个方面：

—assumptions; 假设；
—type of model architectures; 模型架构的类型；
—computational complexity; 计算复杂度；
—advantages and disadvantages; 优点和缺点;

2.1 Supervised deep anomaly detection 有监督的深度异常检测

有监督的异常检测技术比无监督的异常检测技术具有更高的性能，因为这些技术使用标记的样本（Gornitz等人，2013年）。有监督的异常检测从一组带注释的数据实例中学习分离边界（训练），然后使用学习的模型将测试实例分为正常类或异常类（测试）。

Assumptions: 深度有监督的学习方法依赖于分离数据类，而无监督技术则专注于解释和理解数据的特征。基于多类别分类的异常检测技术假设训练数据包含多个正常类别的标记实例（Shilton等人[2013]，Jumutc和Suykens [2014]，Kim等人[2015]，Erfani等人[2017] ]）。多类异常检测技术学习分类器，以区分异常类和其余类。通常，有监督的基于深度学习的异常检测分类方案具有两个子网，一个特征提取网络，后跟一个分类器网络。深度模型需要大量的训练样本（成千上万个）来学习特征表示，以有效地区分各种类实例。由于缺乏干净的数据标签，有监督的深度异常检测技术并不像半监督和无监督方法那样流行。

Computational Complexity: 基于深度有监督的异常检测方法的技术的计算复杂度取决于输入数据维度和使用反向传播算法训练的隐藏层数。高维数据倾向于具有更多隐藏层，以确保对输入特征进行完全意义的分层学习。计算复杂度也随着隐藏层数的增加而线性增加，并且需要更多的模型训练和更新时间。

Advantages：
Supervised DAD methods are more accurate than semi-supervised and unsupervised models. 有监督的DAD方法比半监督和无监督模型更准确。
The testing phase of classification based techniques is fast since each test instance needs to be compared against the precomputed model. 基于分类的技术的测试阶段很快，因为每个测试实例都需要与预先计算的模型进行比较。
Disadvantages：
Multi-class supervised techniques require accurate labels for various normal classes and anomalous instances, which is often not available. 多类别有监督的技术需要为各种正常类和异常实例提供准确的标签，这通常是不可用的。
Deep supervised techniques fail to separate normal from anomalous data if the feature space is highly complex and non-linear. 如果特征空间高度复杂且非线性，则深度有监督技术无法将正常数据与异常数据区分开。

2.2 Semi-supervised deep anomaly detection 半监督的深度异常检测

半监督或(单类分类)DAD技术假设所有的训练实例只有一个类标签。Kiran等[2018]和Min等[2018]综述了基于深度学习的半监督异常检测技术。DAD技术在正常情况下学习有区别的边界。不属于多数类的测试实例被标记为异常(Perera和Patel [2018]， Blanchard等人[2010])。各种半监督的DAD模型架构如表20所示。

在这里插入图片描述

Assumptions:

邻近性和连续性：在输入空间和学习的特征空间中彼此接近的点更有可能共享同一标签。
在深度神经网络层的隐藏层中学习鲁棒特征，保留区分属性，将正常数据点与离群数据点分离。
Computational Complexity: 基于技术的半监督的DAD方法的计算复杂度类似于有监督的DAD技术，主要取决于输入数据的维数和用于代表性特征学习的隐藏层数。

Advantages:
在半监督学习模式下训练的生成对抗网络（GAN）表现出了很大的希望，即使标记数据很少。
使用有标签的数据(通常是一个类)可以比无监督技术产生相当大的性能改进。
Disadvantages：（Lu [2009]）提出的半监督技术的基本缺点甚至适用于深度学习环境。此外，在隐藏层中提取的分层特征可能无法代表更少的异常实例，因此容易出现过拟合问题。

2.3 Hybrid deep anomaly detection 混合深度异常检测

深度学习模型被广泛用作特征提取器来学习鲁棒特征(Andrews et al. [2016a])。在深度混合模型中，在深度模型中学习到的代表性特征被输入到传统的算法中，如单类径向基函数(RBF)、支持向量机(SVM)分类器。混合模型采用了两步学习，并被证明可以产生最先进的结果(Erfani et al. [2016a,b]， Wu et al. [2015b])。用于异常检测的深度混合架构如表21所示。

在这里插入图片描述

Assumptions:

在深度神经网络的隐藏层中提取鲁棒特征，有助于分离可以隐藏异常存在的无关特征。
在复杂的高维空间中建立鲁棒异常检测模型需要特征提取器和异常检测器。与之一起使用的各种异常检测器如表21所示。
**Computational Complexity 😗*混合模型的计算复杂度包括深度架构以及内部使用的传统算法的复杂度。此外，深度网络结构和参数的选择涉及到在相当大的空间中搜索优化参数，这一固有问题引入了混合模型中使用深度层的计算复杂度。此外，考虑经典算法，例如线性SVM，其预测复杂度为O（d），输入维数为d。对于大多数内核（包括多项式和RBF），复杂度为O（nd），其中n是支持向量的数量，尽管对于具有RBF内核的SVM，考虑了近似值O（d2）。

Advantages：
特征提取器显著降低了“维数诅咒”，尤其是在高维域中。
混合模型具有更高的可扩展性和计算效率，因为线性或非线性内核模型在减小的输入维度上运行。
Disadvantages：
混合方法是次优的，因为由于采用了通用损失函数而不是用于异常检测的定制目标，它不能影响特征提取器隐藏层内的表示学习。
如果单独的层是引入计算开销的(Saxe et al.[2011])，则较深的混合模型往往表现得更好。

2.4 One-class neural networks (OC-NN) for anomaly detection 用于异常检测的一类神经网络（OC-NN）

一类神经网络（OC-NN）结合了深度网络的能力（逐步提取丰富的数据表示）以及一类目标，例如超平面（Chalapathy等人，[2018a]）或超球体（Ruff等人） [2018a]）将所有正常数据点与离群值分开。 OC-NN方法之所以新颖，原因有以下几个关键原因：隐藏层中的数据表示是通过优化针对异常检测定制的目标函数来学习的，如（Chalapathy et al。[2018a]，Ruff et al。 [2018a]）中的实验结果表明，对于复杂的数据集，OC-NN可以实现比现有最先进的方法类似或更好的性能，并且与现有方法相比具有合理的训练和测试时间。

Assumptions:

OC-NN models extract the common factors of variation within the data distribution within the hidden layers of the deep neural network. OC-NN模型提取深度神经网络隐藏层内数据分布变化的共同因素。
Performs combined representation learning and produces an outlier score for a test data instance. 执行组合表示学习，并为测试数据实例生成离群分数。
Anomalous samples do not contain common factors of variation and hence hidden layers fail to capture the representations of outliers. 异常样本不包含变化的共同因素，因此隐藏层无法捕获异常值的表示。
Computational Complexity:与混合模型相比，OC-NN模型的计算复杂度仅包括选择的深度网络的复杂度（Saxe等人[2011]）。 OC-NN模型不需要为预测而存储数据，因此内存复杂度非常低。但是，很明显，OC-NN训练时间与输入维度成正比。

Advantages:

OC-NN models jointly train a deep neural network while optimizing a data-enclosing hypersphere or hyperplane in output space. OC-NN模型联合训练一个深度神经网络，同时优化输出空间中的数据封闭超球面或超平面。

OC-NN propose an alternating minimization algorithm for learning the parameters of the OC-NN model. We observe that the subproblem of the OC-NN objective is equivalent to a solving a quantile selection problem which is well defined. OC-NN提出了一种交替最小化算法，用于学习OC-NN模型的参数。我们观察到OC-NN目标的子问题等同于解决定义明确的分位数选择问题。

Disadvantages:

Training times and model update time may be longer for high dimensional input data. 对于高维输入数据，训练时间和模型更新时间可能会更长。
Model updates would also take longer time, given the change in input space. 鉴于输入空间的变化，模型更新也将花费更长的时间。

2.5 Unsupervised Deep Anomaly Detection 无监督的深度异常检测

无监督DAD是基础机器学习研究和工业应用中必不可少的研究领域。提出了一些针对无监督异常检测中的挑战的深度学习框架，并显示出它们产生的最新性能，如表22所示。自动编码器是用于异常检测的基本无监督深度架构（Baldi [2012]）。

在这里插入图片描述

Assumptions:

The “normal” regions in the original or latent feature space can be distinguished from ”anomalous” regions in the original or latent feature space. 原始或潜在特征空间中的“正常”区域可与原始或潜在特征空间中的“异常”区域区分开。
The majority of the data instances are normal compared to the remainder of the data set. 与其余数据集相比，大多数数据实例是正常的。
Unsupervised anomaly detection algorithm produces an outlier score of the data instances based on intrinsic properties of the data-set such as distances or densities. The hidden layers of deep neural network aim to capture these intrinsic properties within the dataset (Goldstein and Uchida [2016]). 无监督异常检测算法根据数据集的内在属性(如距离或密度)生成数据实例的离群分数。深层神经网络的隐藏层旨在捕捉数据集中的这些内在属性(Goldstein和Uchida[2016])。
Computational Complexity: 自编码是二次代价离群点检测中最常用的结构，优化问题是非凸的，类似于任何其他神经网络结构。模型的计算复杂度取决于操作、网络参数和隐藏层的数量。然而，由于PCA基于矩阵分解(孟等[2018]，Parchami等[2017])，因此训练一个自动编码器的计算复杂度比传统方法如主成分分析(PCA)要高得多。

Advantages:

Learns the inherent data characteristics to separate normal from an anomalous data point. This technique identifies commonalities within the data and facilitates outlier detection. 学习固有的数据特征，以区分正常和异常数据点。这种技术可以识别数据中的共性，并促进离群值的检测。
Cost effective technique to find the anomalies since it does not require annotated data for training the algorithms. 低成本的异常发现技术，因为它不需要带注释的数据来训练算法。

Disadvantages:

Often it is challenging to learn commonalities within data in a complex and high dimensional space. 在复杂的高维空间中，学习数据内的共性通常是具有挑战性的。
While using autoencoders the choice of right degree of compression, i.e., dimensionality reduction is often an hyper-parameter that requires tuning for optimal results. 在使用自动编码器时，选择正确的压缩程度，即降维通常是一个超参数，需要调整以获得最佳结果。
Unsupervised techniques techniques are very sensitive to noise, and data corruptions and are often less accurate than supervised or semi-supervised techniques. 无监督技术对噪声和数据损坏非常敏感，通常不如受监督或半监督技术准确。

2.6 Miscellaneous Techniques 各种各样的技术

2.6.1 Transfer Learning based anomaly detection 基于迁移学习的异常检测

长期以来，人们一直批评深度学习需要有足够的数据来产生良好的结果。Litjens等[2017]和Pan等[2010]都对深度迁移学习方法进行了综述，并说明了它们对于学习好的特征表示的意义。迁移学习是机器学习中解决训练数据不足这一根本问题的重要工具。它的目的是通过放松训练和未来数据必须在相同的特征空间和具有相同的分布的假设，将知识从源域迁移到目标域。(Andrews et al. [2016b]， Vercruyssen et al. [2017]， Li et al. [2012]， Almajai et al. [2012]， Kumar and Vaidehi [2017]， Liang et al.[2018])对深度迁移表征学习进行了探索，显示出非常有前景的结果。利用迁移学习进行异常检测的开放性研究问题是:可转移性的程度，即定义特征如何从一个任务到另一个任务很好地迁移知识并提高分类性能。

2.6.2 Zero Shot learning based anomaly detection 基于零次/零样本学习的异常检测

零样本学习（ZSL）旨在识别训练集中从未见过的物体（Romera-Paredes和Torr [2015]）。 ZSL通过两个阶段实现了这一目标：首先，获取有关自然语言描述或属性中的对象的知识（通常称为元数据）；其次，此知识将用于在一组新的类中对实例进行分类。此设置在现实世界中很重要，因为在训练中可能无法获得所有可能的类的图像。与这种方法相关的主要挑战是获取有关数据实例的元数据。然而，在异常和新颖性检测中使用ZSL的几种方法被证明可产生最新结果（Mishra等人[2017]，Socher等人[2013]，Xian等人[2017]，Liu等人）等人[2017]，Rivero等人[2017]）。

2.6.3 Ensemble based anomaly detection 基于集成的异常检测

深度神经网络的一个显着问题是，它们对输入数据中的噪声敏感，并且通常需要大量的训练数据才能稳健地执行（Kim等人[2016]）。为了即使在嘈杂的数据中也能实现鲁棒性，随机改变自动编码器的连通性结构的思想被证明可以获得更好的性能。Chen等人[2017]对由各种随机连接的自动编码器组成的自动编码器集成进行了实验，在多个基准数据集上取得可喜的结果。集成方法仍然是一个活跃的研究领域，已被证明可以产生更好的多样性，从而避免过度拟合的问题，同时减少了训练时间。

2.6.4 Clustering based anomaly detection 基于聚类的异常检测

文献中提出了几种基于聚类的异常检测算法(Ester et al.[1996])。聚类涉及到根据提取的特征将相似的模式组合在一起以检测新的异常。时间和空间复杂度随待聚类的数量线性增长(Sreekanth等人[2010])，这使得基于聚类的异常检测无法用于实时实际应用。减少了输入数据的维数，在深层神经网络的隐藏层中提取特征，保证了复杂高维数据集的可扩展性。基于深度学习的聚类异常检测方法，如word2vec (Mikolov et al.[2013])对正常数据和异常数据进行语义表示，形成聚类并检测离群值(Yuan et al.[2017])。一些工作依赖于混合模型的变体和自动编码器，以获得有代表性的特性，用于聚类以发现异常。

2.6.5 Deep Reinforcement Learning (DRL) based anomaly detection 基于深度强化学习（DRL）的异常检测

深度强化学习(Deep reinforcement learning, DRL)方法因其在高维数据空间中学习复杂行为的能力而备受关注。de La Bourdonnaye等[2017]、Huang Chengqiang[2016]提出了利用深度强化学习检测异常的方法。基于DRL的异常检测器不考虑任何关于异常概念的假设，检测器通过不断积累的奖励信号增强其知识来识别新的异常。基于DRL的异常检测是一个非常新颖的概念，需要进一步研究和识别其研究缺口及其应用。

2.6.6 Statistical techniques deep anomaly detection 统计技术深度异常检测

希尔伯特变换是一种统计信号处理技术，它推导出实值信号的解析表达式。该属性被(Kanarachos等人[2015])用于实时检测健康相关时间序列数据集中的异常，并被证明是一种非常有前景的技术。该算法结合了小波分析、神经网络和希尔伯特变换的能力，以序列的方式检测实时异常。统计技术这一主题下的DAD技术需要进一步研究，以充分了解其在异常检测方面的潜力和适用性。