离群点检测方法_异常检测最新综述 上篇

异常检测最新的综述文,

全文较长,一些没啥用的介绍之类的就不看了,直接截图出来好了。

6bb5d8fc4559a5e2a6c683c37e19896c.png

I. 介绍

由于异常检测在数据挖掘中的广泛应用,因此仍然是数据挖掘中必不可少且广泛的研究分支。通过识别异常值,研究人员可以获得重要的知识,有助于做出更好的数据决策。同样,在异常检测[1],[2],网络安全检测[3]和健康诊断[4]、网络入侵等广泛的应用中,检测离群值可转化为重要的可操作信息,尽管异常的概念在提供清晰的定义方面存在歧义,但离群值(outliers)通常被认为是与其他数据点明显不同或不符合整体的代表的现象的预期正常模式的数据点。离群值检测技术致力于解决发现不符合预期行为的模式的问题,因此需要我们考虑要定义的通常行为和正常区域的情况。由于以下原因,这种情况可能会很复杂(异常检测问题中存在的难点):

1、异常行为和正常行为之间的边界的模糊;

2、当前的正常行为在未来不一定是正常行为,当前的异常行为在未来不一定是异常行为,即数据的变化是非常快的;

3、不同的应用方向和相互矛盾的概念使得很难将一个领域中应用的异常检测技术应用于另一领域,这也是为什么目前不同领域的欺诈检测,例如互联网内容反欺诈、广告反欺诈、准入反欺诈之间遵循的技术体系差异较大的主要原因;

4、异常值和噪声,有时候很难区分。

尽管离群值检测面临一些挑战,但目前已提出了几种离群值检测技术,这些技术使用不同的方法和算法来解决这些问题[5]。一些常见的困难 与输入数据的性质,离群值类型,数据标签,准确性以及就CPU时间和内存消耗而言的计算复杂性有关[6] – [9]。研究人员不断寻找更好的解决方案来应对这些挑战,以及与有效检测分布式数据流[10],RFID阅读流[11],大型多维数据[12],[13],无线传感器网络[14],有效轨迹[15]以及数据质量和清理[16]。

例如,考虑大型高维数据中存在的挑战,其中,无论数据相对较大还是非常大,数据始终包含一些异常值。在大多数情况下,随着数据数量的大小的增加,离群值的数量也会增加[17]。因此,对于大量数据,设计可伸缩的离群值检测技术以处理大型数据集至关重要

随着数据大小的增加,这会成比例地影响计算成本,从而使处理过程缓慢且昂贵。

由于异常检测在各个领域都具有固有的重要性,因此在异常检测(OD)方法的调查中已进行了大量研究工作[22]-[34]。尽管存在越来越多的异常检测方面的评论,但它仍然是研究领域中一个无所不包的话题。仍然有新提出的方法和要解决的基本问题。因此,本文在使研究人员了解异常检测技术的最新进展方面起着至关重要的作用。据我们所知,迄今为止进行的大多数调查仅针对特定领域,而不是提供最新研究的深入报道和见解,如表1所示。

a1a47a848a5430d14bf8323c514625d7.png

例如,仅[25]中的评论专注于数据流,[27]专注于高维数值数据,[23],[33]专注于动态网络,最新关注于深度学习[32]。最全面的方法[28],[33],[41]尽管包含很多见解,但并未回顾大多数主要的最新技术方法,而大多数方法至少在五年前就已发表。

近年来,进行了更多的当代研究,尤其是在深度学习[35],[36]和集成技术[37],[38]领域。因此,更多的这些近期研究和发现需要回顾。我们的调查对最突出的最新异常值检测方法进行了全面回顾,包括常规和新出现的挑战。这项调查与其他调查有所不同,因为它捕获并提出了有关最新文献的更全面的综述,并对异常检测领域中的现有研究进行了合并和补充。此外,我们进行了广泛的研究以提出重要类别的异常值检测方法,并严格讨论和评估它们。我们进一步讨论了常用的评估标准以及离群值检测技术的工具和可用的公共数据库。我们相信,这项调查将使研究人员和从业人员受益匪浅,因为它将全面了解各种优缺点,未解决的挑战以及与最新的异常值检测方法相关的差距。这将使他们对将来需要重点关注的问题有更好的了解。总而言之,该论文的新颖而重要的贡献是:

1、我们介绍了不同的最新异常值定义,不同的种类,原因,当代的检测和处理过程以及最新的挑战和应用领域。与其它的survey文不同,我们添加了需要更多关注的新应用领域;

2、我们对离群值检测算法的类别进行了扩展,并在以前的调查中采用了其他不同的方法。我们介绍最先进的算法,并通过突出它们的优缺点来讨论它们。我们主要引用并讨论在大多数重要调查之后所做的近期研究[26],[33];

3、与以往的调查相比,我们通过介绍近期方法的优缺点,未解决的挑战和不足,大大扩展了针对每个不同类别的讨论。我们还提供了一些最新算法的性能,已解决的问题,缺点和可能的解决方案的摘要;

4、我们提出了一些在评估异常值检测算法方面的当代开放性挑战。然后,我们介绍标准工具以及通常用于异常值检测研究中的一些基准数据集。我们通过讨论OD工具的选择来扩展我们的讨论,选择合适的数据集面临的挑战;

5、我们确定了一些新的挑战,最后为未来的研究提出一些可能的研究方向。

本文的组织结构如下:在第2节中,我们通过提供离群值检测的综合背景开始我们的研究。这是通过对它们最重要的概述功能和基础的详细说明来完成的:定义,特征,原因和应用领域。在第3节中,我们将异常值检测方法(OD)正式分类为不同的区域,然后简要讨论了这些技术。我们将这些方法的性能,所解决的问题和缺点与未解决的研究问题和未来工作的挑战结合在一起。第4节讨论离群值检测中的一些评估约束,用于OD的基本工具以及对基准数据集的一些分析。在第5节中,我们总结了本文,并对未来的工作提出了一些开放的挑战和建议。

二、背景

在本节中,我们介绍离群值的常用定义,讨论离群值的原因,有关如何识别和检测离群值的新技术,以及检测到离群值时的处理方法。最后,我们介绍了异常值检测的一些新应用领域,并为在这些应用领域中的进一步研究提供了更多参考。

outliers定义

自离群值检测研究开始以来,对离群值有很多定义。 2017年,Ayadi等人。 [14]从不同作者的角度给出了离群值的十二种不同解释。这证明了提供离群值的准确定义是多么复杂。尽管在定义异常值时存在模糊性和复杂性,但通常可以将其描述为与其他数据点明显不同的数据点,或者不同于其他点的预期典型行为的存在异常行为的点[5],下面用一个简单的二维数据集例子用来描述异常状态以进行说明,如下图所示:

0ae1719e330a6c7bc089b052d2459603.png

数据包含两个部分S1和S2。 P1,P3,P4和具有很少数据点P2与两个大型聚类区域距离很远。因此,按照上面的定义,它们不符合数据的正常行为并且是不同的。因此,它们被称为离群值。(补充:欺诈检测和异常检测存在的最大的不同在于,欺诈样本不一定是异常样本,异常样本不一定是欺诈样本,以上图为例,欺诈样本可能存在于s2和s3中,此时我们面临的问题在于当前拥有的样本的特征对于欺诈用户的区分完全没有帮助,那么在这种条件下,无论使用什么技术都是无法判定出欺诈用户的,算法建立在数据上,更加准确来说,建立在数据的特征上;对于后者来说,仍旧是以上图为例,即使我们通过异常检测技术得到了p1~p4的异常点,这些异常点被挖掘出来的背后的逻辑(例如稀疏性,和聚类簇的远距离等),可能和欺诈没有任何关系

一、异常产生的原因,识别过程和处理过程:

1)引起异常的原因以及如何识别外界的原因

有很多不同的问题促使出现异常值。异常值的一些最常见原因是由于机械故障,系统行为的更改,欺诈行为,恶意活动,人为错误,仪器错误,设置错误,采样错误,数据输入错误和环境变化造成的。例如,数据错误造成的异常值通常是人为错误造成的,例如在数据收集条目和记录中存在的人为错误。

确定存在异常值的下一个问题是如何识别和处理异常值。许多研究人员试图回答如何检测异常值的问题。同样重要的问题是需要考虑的必要功能和进行测试以识别异常值。即使对这一研究领域的兴趣日益浓厚,人们仍在进行不断的研究以找到这些问题的正确答案。

研究人员继续提出新颖和创新的想法来回答它们[28],[29]。多年来,离群值识别的过程在机器学习和数据挖掘中具有许多名称,例如离群值挖掘,新颖性检测,离群值建模,异常检测等。检测和消除离群值的过程中,务必要小心。消除正确数据中的异常值可能会导致重要的隐藏信息丢失。在寻找异常值的过程中,了解需要考虑的特征数量(单变量或多变量情况)也至关重要。同样,对于基于统计的方法方案,所选特征是否可以假设参数或非参

  • 4
    点赞
  • 26
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值