论文翻译:Deep Learning for Anomaly Detection: A Review,异常检测的深度学习:回顾

       异常检测,又称离群点检测,几十年来一直是各个研究领域中一个持续而活跃的研究领域。仍然有一些独特的问题、复杂性和挑战需要先进的方法。近年来,深度学习使得异常检测成为可能。深部异常探测,已成为一个关键方向。本文综述了深度异常检测方法的研究进展,并对检测方法进行了综合分类,包括三个高级分类和三个高级分类11种方法的细粒度分类。我们回顾了他们的主要直觉、目标功能、基本假设、优势和劣势,并讨论了他们如何应对上述挑战。我们进一步讨论了一系列未来可能的机遇和应对挑战的新观点。

         异常检测,又称离群点检测,是指检测与大多数数据实例显著偏离的数据实例的过程。几十年来,异常检测一直是一个活跃的研究领域,早期的探测可以追溯到60年代[53]。由于在风险管理、合规、安全、金融监控、健康和医疗风险以及人工智能安全等领域的需求和广泛应用,异常检测发挥着越来越重要的作用,在包括数据挖掘、机器在内的各个领域都得到了强调学习复杂数据(如高维数据、时间数据、空间数据和图形数据)的表达表示的能力,推动不同学习任务的边界。深度学习异常检测,简称深度异常检测,目的是通过神经网络学习特征表示或异常分数,进行异常检测。近年来,大量的深部异常检测方法被引入,在解决具有挑战性的检测问题上,表现出明显优于常规异常检测的性能各种实际应用中的构造问题。这项工作的目的是提供一个全面的审查这一领域。我们首先讨论了异常检测的问题本质和主要挑战,然后系统地回顾了当前深层异常检测方法及其应对这些挑战的能力,最后提出了该领域未来的一些机遇。

          作为一个热门领域,许多研究[2,4,16,28,54,63,178]致力于异常检测技术的分类和综述。然而,它们都只关注传统的异常检测方法。与我们密切相关的一项工作是[26]。它介绍了深度异常检测的一些实际应用的一个很好的总结,但只提供了一些非常高级的技术选择类别的概述,从中它是高度很难,如果不是不可能,获得当前方法所采取的方法的意义和方法背后的直觉。相比之下,为了回答为什么我们需要深度异常检测,本文描述了当前深度检测方法的形成过程,以获得对其潜在直觉、内在能力和弱点的关键见解,以解决异常检测中一些很大程度上尚未解决的挑战。这形成了对问题本质和现状的深刻理解,并带来了真正的开放机会。

综上所述,本工作有以下五个主要贡献:
•问题的本质和挑战。我们将讨论一些独特的异常检测问题的复杂性以及由此产生的未解决的挑战。
•分类和表述。我们将目前的深度异常检测方法构建为三个原则框架:用于通用特征提取的深度学习、正规性的学习表示和端到端异常分数学习。基于11种不同的建模视角,提出了一种层次分类方法。

综合文献综述。我们回顾了多个相关领域的主要会议和期刊上的大量相关研究,包括机器学习、数据挖掘、计算机视觉和人工智能,并对研究进展进行了全面的文献综述。为了提供一个深入的介绍,我们描述了基本假设,目标函数,关键直觉和它们在解决上述挑战的所有类别的方法。
•未来的机会。我们进一步讨论一系列未来可能的操作

异常检测:问题的复杂性和挑战
由于异常检测的独特性,与大多数分析和学习问题和任务相比,异常检测呈现出不同的问题复杂性。本节总结了复杂异常数据中固有的复杂性和未解决的检测挑战。

主要问题的复杂性
不像常规或明显模式下的问题和任务,异常检测针对的是少数、不可预测/不确定和罕见的事件,这导致了下面一些独特的复杂性,使得一般的深度学习技术无效。

异常与许多未知因素有关,例如,具有未知的突然行为、数据结构和分布的实例。它们直到真正发生时才为人所知,比如新的恐怖袭击、诈骗和网络入侵。

异构的异常类。异常是不规则的,因此一类异常可能表现出与另一类异常完全不同的异常特征。例如,在视频监控中,抢劫、交通事故和盗窃等异常事件在视觉上有很大差异

稀有和阶级不平衡。异常通常是罕见的数据实例,而正常实例通常占数据的绝大部分。因此,收集大量标了标签的异常实例是困难的,甚至是不可能的。
这导致在大多数应用程序中无法获得大规模的标记数据。类别不平衡的另一个原因是,异常的错误分类通常比正常实例的代价高得多

异常类型多样。已经发现了三种完全不同类型的异常[28]。点异常是指异常w.r.t的个例,大多数其他个例,如病人的异常健康指标。条件异常,又称情境异常,也指在特定情境下的个体异常情况,即情境异常。时,数据实例在特定上下文中是异常的,否则是正常的。在实际应用中,上下文可能会有很大的不同,例如,在特定的时间范围内,温度突然下降/上升。组异常,又称集合异常,是整个数据实例异常的子集。集体异常中的个体成员可能不是异常,例如,社交网络中虚假账号形成的异常密集的子图作为一个集合是异常,但子图中的个体节点可能与真实账号一样正常。

主要检测的挑战
上述复杂的问题性质给传统的异常检测方法和广泛使用的一般深度学习方法带来了许多检测挑战。一些挑战,例如可伸缩性w.r.t.数据大小,在最近几年已经得到了很好的解决,而下面的问题在很大程度上还没有解决,深度异常检测可以在其中发挥一些重要的作用。

异常检测召回率低。由于异常异常非常罕见且不均匀,很难确定所有的异常。许多正常的实例被错误地报告为异常,而真实而复杂的异常却被忽略了。尽管多年来已经引入了过多的异常检测方法,但目前最先进的方法,特别是无监督方法(例如[17,85]),仍然经常导致真实数据集的高误报率[20,116]。如何减少误报和提高检测召回率是最重要但又有区别的问题之一。

CH2:高维和/或非独立数据的异常检测。异常通常在低维空间中表现出明显的异常特征,而在高维空间中却隐藏不明显。高维异常检测是一个长期存在的问题[178]。在由原始特征或新构造特征的小子集张成的低维空间中进行异常检测是一种简单的解决方案,例如基于子空间的方法[71,78,86,124]和基于特征选择的方法[12,111,113,113]。然而,确定足高维数据仍然是异常检测的主要挑战。另外,如何保证新的特征空间为特定的检测方法保留适当的信息,对下游异常的准确检测至关重要,但由于上述异常的不确定性和异质性,这是一个挑战。此外,从相互依赖的实例(如时间、空间、基于图形和其他相互依赖关系的实例)中检测异常也是一项挑战。

数据高效的正常/异常学习。由于收集大规模标记异常数据的难度和成本,完全监督异常检测往往不切实际,因为它假定标记训练数据中既有正常类,也有异常类。在过去的十年里,主要的研究努力集中在不需要任何标记训练数据的无监督异常检测上。然而,无监督方法没有任何关于真实异常的先验知识。他们在很大程度上依赖于异常分布的假设,但未能奏效另一方面,通常也不难收集到有标记的正常数据和一些有标记的异常数据。在实践中,经常建议尽可能利用这些容易访问的标记数据[2]。因此,利用这些标记的数据来学习正态/异常的表达表示对于准确的异常检测是至关重要的。半监督异常检测,假设存在一组标记的训练数据a1,是致力于这一问题的研究方向。另一个研究方向是弱监督异常检测假设我们有一些异常类的标签,但类标签是部分/不完整的
(即。,它们不跨越异常类的整个集合),不精确(即不精确)。,粗粒度的标签),或不准确的(例如。,有些标签可能是不正确的)。两个主要的挑战是如何学习表达正态/异常表示与少量的标记异常数据,以及如何学习检测模型,可以推广到由给定的标记异常数据发现的新异常。

CH4:抗噪异常检测。许多弱/半监督异常检测方法假设给定的带标记的训练数据是干净的,因此容易受到误标记为相反类标签的有噪声实例的攻击。在这种情况下,我们可以使用无监督的方法代替,但这不能利用真正的标签数据。
此外,经常存在大规模异常污染的未标记数据。噪声模型可以进一步利用这些未标记的数据进行更精确的检测。主要的挑战是噪音的数量可以不同。

探测复杂异常。现有的方法大多是针对点异常的,但条件异常和群异常表现出与点异常完全不同的行为,不能用于点异常。这里的一个主要挑战是将条件/组异常的概念纳入异常度量/模型中。此外,目前的方法主要侧重于从单一数据源检测异常,而许多应用需要检测多个异构数据源的异常,如多维数据、图形、图像、文本和音频数据。一个主要的挑战。

异常的解释。在许多关键领域,如果将异常检测模型直接用作黑盒模型,可能会产生一些重大风险。例如,被报告为异常的罕见数据实例可能导致算法对数据中呈现的少数群体的偏差,例如在欺诈检测和犯罪检测系统中代表性不足的群体。减轻这类风险的一种有效方法是使用异常解释算法,该算法可以提供有关为什么某个特定数据实例被识别为异常的直接线索。然而,现有的异常检测研究大多只关注于设计准确的检测模型,而忽略了对已识别异常进行解释的能力。从具体的检测方法中获得异常解释仍然是一个很大程度上尚未解决的问题,特别是对于复杂模型。开发具有内在可解释性的异常检测模型也是至关重要的,但是如何平衡模型的可解释性和有效性仍然是一个主要的挑战。

解决深度异常检测的挑战
3.1预赛
深度神经网络利用可由计算图表示的线性/非线性函数的复杂组成来学习表达表意[50]。深度学习的两个基本构建模块是激活函数和层。激活函数决定计算图形节点的输出(即(如神经网络中的神经元)给定一些输入。它们可以是线性或非线性函数。一些常用的激活函数包括linear, sigmoid, tanh, ReLU(整流线性单元)和i神经元以某种形式堆积在一起。常用的层包括完全连接的,卷积的
&池和循环层。这些层可以被用来构建不同的流行神经网络。如多层感知器(MLP)网络由全连通的层组成,卷积神经网络(CNN)具有不同的卷积组的特点池化层,和递归神经网络(RNN),例如,普通RNN,门控递归单元(GRU)和长短期记忆(LSTM)是建立在循环层之上的。有关这些神经n的详细介绍,请参阅[50]。

给定数据集X = {x1, x2,··,xN}, xi∈RD,令Z∈RK (K)是一种表现空间,深度异常检测旨在学习一种特征表现映射功能ϕ(·):X 7→Z或异常分数学习函数τ(·):X 7→R的方式可以很容易地从正常分化异常数据实例ϕ或τ空间,ϕ和τ是神经网络映射函数矩阵H∈N隐藏层和体重Θ= {M1,M2,···,MH}。学习特征映射的ϕ(·),一个额外的步骤是必需的。

深度异常检测分类
为了深入了解该领域,我们引入了一种层次分类法,从建模的角度将现有的深度异常检测方法分为三个主要类别和11个细粒度类别。图1显示了这些方法的分类概况,以及它们所解决的挑战。其中,深度异常检测包括特征提取的深度学习、特征表示的学习三个概念范式正态性,端到端异常分数学习。

这三种框架的过程如图2所示。如图2(a)所示,深度学习和异常检测在第一个主要类别(第4节)中被完全分离,因此深度学习技术仅作为一些独立的特征提取器。在图2(b)所示的第二大类(第5节)中,这两个模块以某种形式相互依赖,目的是学习正态性的表达表示。这类方法可以根据传统异常测量方法的优劣,进一步分为两类方法的细粒度分类,每个分类采用不同的方法来制定其目标功能。这两个模块在图2(c)的第三大类(第6节)中完全统一,其中的方法用于通过神经网络端到端学习异常分数。这些方法被进一步分组为四类基于神经网络支持的异常评分。在接下来的三个部分中,我们将详细回顾这三个类别中的每一个方法,并讨论它们是如何解决上述某些问题的。

图1所示。提出的当前深度异常检测技术的分类。此外,还介绍了每一类方法可以解决的检测挑战。

图2所示。三种主要的深度异常检测方法的概念框架

特征提取的深度学习
这类研究代表了深度学习技术在异常检测中的最基本应用。它旨在利用深度学习从高维和/或非线性可分离数据中提取低维特征表示,用于下游异常检测。特征提取和异常评分是完全脱节、相互独立的。因此,深度学习组件只纯粹作为降维。形式上,该方法可以表示为 :

ϕ的地方:X 7→Z是一个深层神经网络特性映射函数,与X∈RD, Z∈R通常K和D≫K .异常计分法f没有连接特性的映射ϕ然后应用到新空间计算异常分数。与常见的异常检测降维方法(如主成分分析(PCA)[21,141, 180]和随机投影[81,114,124])相比,深度学习技术在提取语义丰富的特征和非线性特征关系方面表现出了明显更好的能力[14,50]:

假设。深度学习模型提取的特征表示保留了区分信息,有助于从正常实例中分离异常。一种研究方法是直接使用流行的、有效的预训练深度学习模型,比如AlexNet [76], VGG[144]和ResNet[59],提取低维特征。该方法用于图像、视频等复杂高维数据的异常检测。这一行的一个有趣的工作是在线异常检测的揭露框架[154]。该框架的关键思想是迭代第一组正常的视频帧,并评估其与后续视频帧的可分离性。因此,如果后续视频帧异常,则期望训练分类准确率高,反之则期望训练分类准确率低。揭露是一个异常评分的过程,随着用来定义异常评分的训练精度的变化。很明显,揭露框架的能力很大程度上依赖于特征的质量,因此拥有高质量的特征来表示视频帧是至关重要的。在ILSVRC基准上预先训练的VGG模型[135]被证明可以有效地提取表达性外观特征[154]。在[90]中,掩蔽框架被制定为一个双样本测试任务,以理解其理论基础。它们还表明,利用动态更新的视频帧采样池提取的特征可以提高框架的性能。此外,与分类等其他任务类似,从源数据集上预先训练的深度模型中提取的特征表示,可以转移到目标数据集上的异常检测器上进行微调。如[6]所示,一类支持向量机(SVM)可以首先使用ILSVRC基准上预训练的VGG模型提取的特征进行初始化,然后进行微调,以改进MNIST数据上的异常分类[79]。

该类别的另一个研究方向是明确训练深度特征提取模型,而不是预先训练的下游异常评分模型[45,66,164,169]。特别是,在[164]中,三个独立的自编码器网络被训练学习各自的外观、运动和外观-运动联合表示的低维特征,用于视频异常检测。一个由三个单类支持向量机组成的集合在每个学习到的特征表示上进行独立训练,以执行异常评分。类似于[164],利用线性单类支持向量机对深度信念网络[45]生成的高维表格数据的低维表示进行异常检测。与单类支持向量机不同,在[66]中使用了无监督分类方法来实现投影空间中的异常评分。具体来说,它们首先对卷积自编码器生成的视频帧的低维特征进行聚类,然后将聚类标签作为伪类标签,进行one vs-the-rest分类来计算帧的异常分数。在图异常检测中也可以找到类似的方法[169],其中在潜在表示空间中使用基于无监督聚类的异常测度来计算图顶点或边的异常。学习表达表征对于图顶点,以图顶点的单热编码作为输入,通过最小化基于自编码器的重构损失和相邻图顶点在表示空间中的成对距离来优化其顶点表示。的优势。这组方法的优点如下。(i)有大量最新的(预先训练的)深度模型和现成的异常检测方法。(ii)深度特征提取比常用的线性方法具有更强的降维能力。(三)鉴于深模和检测方法的公开可用性,这种方法很容易实施。

缺点。它们的缺点如下。(i)特征提取和异常评分完全脱节,往往导致异常评分次优。(ii)预训练的深度模型通常局限于特定类型的数据。挑战的目标。这类方法将高维/非独立数据投影到低维空间上,使现有的异常检测方法能够在更简单的数据空间上工作。低维空间通常有助于揭示隐藏的异常和减少误报(CH2)。但是,需要注意的是,由于数据投影与异常检测是完全解耦的,这些方法可能无法在投影空间中保留足够的信息用于异常检测。此外,该方法允许我们利用多种类型的特征并学习语义丰富的检测模型(如[66,154,164]中各种预定义的图像

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值