(二十)Active Anomaly Detection via Ensembles: Insights, Algorithms, and Interpretability

论文信息

  • 2019
  • Learning
  • 作者单位:华盛顿州立大学

论文下载链接:https://arxiv.org/pdf/1901.08930.pdf
论文代码链接: https://github.com/shubhomoydas/ad_examples

一、阅读本文需要储备的基本知识

主动学习
集成

1、主动学习

  • 思想:分为两个部分:选择引擎+学习引擎
    (1)选择引擎负责选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中;
    (2)学习引擎:将这些人类专家标注的数据加入到训练样本集中对算法进行训练学习

相关学习参考链接:
(1)链接一:简介
(2)连接二:综述
(3)链接三:通俗理解
(4)链接四:相关算法了解
在这里插入图片描述

2、集成

  • 思想:将多个个体学习器用某种策略组合起来成为强学习器——“三个臭皮匠顶个诸葛亮”

相关参考链接跳转到此前的一篇文章Outlier Detection for Time Series with Recurrent Autoencoder Ensembles ,在第二次阅读记录的前部分有记录
在这里插入图片描述

二、论文动机

本文研究了异常检测中与集成和主动学习相关的两个基本问题。
1、为什么在大多数情况下,集成的检测器的平均得分表现最好,而不是其他得分组合策略(如最小、最大、中位数等)?
2、为什么用于主动学习的贪婪查询选择策略几乎总是表现最佳?

三、论文贡献

1、解释 异常检测器的集成是如何自然地适合主动学习,以及为什么贪婪的查询策略寻找标签的实例具有最高的异常得分。
2、提出了一种基于树的集成描述异常的方法,称为紧描述(CD)。结果表明,该方法可以提高已发现异常的多样性和可解释性。
3、开发了一种新的算法来可靠地检测数据流中的漂移,并设计了相关的算法,以原则性的方式使异常检测器适应流设置。
4、设计一种称为全局异常检测(GLocalized Anomaly Detection,GLAD)的新算法,该算法可用于通过标签反馈与一般(同源或异类)集成发现异常。
5、提供了大量的经验证据,支持我们对几个基准数据集的见解和算法。

四、概述

1、【问题描述】

(1)数据集D={x1,…,xn},xi是数据实例,yi∈ {−1,+1}是对应的标签,+1表示异常,-1表示正常
(2)m个异常检测器形成集成 E,该集成将得分z={z1,…,zm}分配给每个检测器
(3)用H表示所有未标记实例的集合得分矩阵。标记为+1的实例集的得分矩阵用H+表示,标记为-1的实例集的得分矩阵用H-表示。

2、【异常检测的主动学习框架】
在这里插入图片描述

  • 该框架的目标是:学习最佳权重,以最大化显示给分析员的真实异常数。
  • 该框架有一个分析师,他可以为交互循环中的任何实例提供真正的标签,如图所示。在主动学习循环的每次迭代中,我们执行以下步骤:
    (1)根据查询选择策略QS从输入数据集中D选择一个或多个未标记的实例
    (2)专家通过以可解释规则或解释的形式提供附加信息,向人类分析员查询所选实例的标签;
    (3)根据标记实例和未标记实例的集合更新评分函数的权重。

3、【本文要解决的问题】
(1)基于一种新的异常检集成的观察,初始化评分函数得分Sorece(x)的参数Θ
(2)提高主动学习有效性的查询选择策略。
(3)基于标签反馈更新评分函数的权重。
(4)根据需要更新集成成员以支持流数据设置。
(5)对异常情况进行解释和解释,以提高人在环异常检测系统的可用性。

五、异常检测器集成适用于主动学习的原因

1、假设AD集成的所有成员的分数都是标准化的,位于[-1,1]或[0,1]之间,较高的分数意味着较多的异常。
下图说明了2D中集成成员的一些可能的标准化分数分布。当集成成员是“好的”时,他们将更高的分数分配给异常,并将其推到分数空间的一个极端区域,如图中的情况C1所示。这使得通过超平面将异常与正常分离变得更容易
在这里插入图片描述
2、一个玩具数据集上的这个场景的示例在这里插入图片描述
(a) 玩具数据集 将作为贯穿全文的运行示例来说明这些想法。红点是异常点,黑点是正常点。
(b) 由IFOR分配给玩具数据集的异常分数。
(c) 来自IFOR和Wunif的得分向量之间角度的直方图分布。红色和绿色柱状图分别显示异常和名词的角度分布。由于红色直方图更靠近左边,所以异常更接近Wunif。

3、总结
(1)主动学习是很有吸引力的。
(2)贪婪策略查询标签中排名靠前的实例是有效的,因此也是评价其他查询策略性能的一个很好的尺度。
(3)通过主动学习来学习决策边界,将其推广到不可见的数据,这有助于在有限的内存或流数据设置中实现。

六、基于树的集成的主动学习算法

在这一部分中,描述了一系列基于树的集成的主动学习算法。
(1)首先,我们提出了基于树的异常检测器集合的优点,并描述了一种称为更深层隔离林的算法(第5.1节)。
(2)其次,我们提出了一种新的形式主义,称为紧凑描述,它使用基于树的模型来紧凑地描述实例组,并将其应用于改善选择用于标记的实例的多样性和生成简洁的可解释规则(第5.2节)。
(3)第三,我们描述了一种在批量设置中基于标签反馈更新评分函数权重的算法,在批量设置中,整个数据在一开始就可用(第5.3节)。
(4)第四,我们描述了支持流设置的算法,其中数据以连续流的形式出现(第5.4节)。

1、第2节,讨论相关工作
2、第3节中对我们的人在环学习框架进行了高层次的概
3、第4节中,我们描述了异常检测器集合实际成功的主要原因,并说明了它们唯一适合于标记有效的活动异常检测的特性。
4、第5节中,我们提出了一系列基于树型异常检测器集合的主动学习算法。
5、第6节中,我们讨论了基于广义检测器集合的主动学习的全局异常检测算法。
6、7节介绍了我们的实验结果,最后第8节给出了总结和未来工作的方向。

主动学习算法可以有选择地向人类分析师查询输入实例的标签,以提高其预测精度。总体目标是最小化查询的数量以达到目标性能。

……好多知识点不懂,放弃看了,但是思想是可以应用的

  • 5
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
异常检测是指在大规模数据中发现异常或异常行为的过程。在传统的异常检测方法中,经常会使用基于统计学的方法,如基于阈值的技术或基于规则的技术,来找出与正常模式不一致的样本或事件。然而,这些方法存在一些局限性,比如无法处理非线性关系或隐含的模式,以及对数据的特征进行全面的抽取。 深度分布式时间序列模型则提供了一种创新和强大的方法来处理大规模数据的异常检测问题。这种模型将深度学习和概率建模相结合,能够对数据的分布进行建模,并以此来检测异常。在这种模型中,每个时间点的数据样本都被看作是从一个潜在分布中抽取的,而异常数据点则被认为是与这个分布不一致的。 深度分布式时间序列模型的一个优点是它能够从数据中自动学习分布的特征,而不需要手动提取特征。这使得模型更加灵活和适用于各种不同类型的数据。此外,这种模型还可以处理非线性关系和多变量时间序列数据,进一步提高了其异常检测的准确性和可靠性。 另外,深度分布式时间序列模型还可以处理大规模数据集,并且能够进行实时的异常检测。这是因为该模型可以在分布式系统中进行并行计算,并且具备较低的计算和存储需求。这样一来,无论是对于高速数据流还是对于历史数据集,深度分布式时间序列模型都能快速地进行异常检测。 总的来说,深度分布式时间序列模型在大规模数据的异常检测中具有很大的潜力。它能够自动提取数据分布的特征,适应各种类型的数据,处理非线性关系和多变量时间序列数据,并且能够处理大规模数据集并进行实时的检测。通过应用这种模型,我们可以更加准确地识别出异常行为,帮助我们提高数据安全性和业务运营效率。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是肉球哇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值