论文信息
- 2019
- Learning
- 作者单位:华盛顿州立大学
论文下载链接:https://arxiv.org/pdf/1901.08930.pdf
论文代码链接: https://github.com/shubhomoydas/ad_examples
一、阅读本文需要储备的基本知识
主动学习
集成
1、主动学习
- 思想:分为两个部分:选择引擎+学习引擎
(1)选择引擎负责选择一个未标注的样例并将其交由人类专家进行标注,再将标注后的样例加入到已标注样例集中;
(2)学习引擎:将这些人类专家标注的数据加入到训练样本集中对算法进行训练学习
相关学习参考链接:
(1)链接一:简介
(2)连接二:综述
(3)链接三:通俗理解
(4)链接四:相关算法了解
2、集成
- 思想:将多个个体学习器用某种策略组合起来成为强学习器——“三个臭皮匠顶个诸葛亮”
相关参考链接跳转到此前的一篇文章Outlier Detection for Time Series with Recurrent Autoencoder Ensembles ,在第二次阅读记录的前部分有记录
二、论文动机
本文研究了异常检测中与集成和主动学习相关的两个基本问题。
1、为什么在大多数情况下,集成的检测器的平均得分表现最好,而不是其他得分组合策略(如最小、最大、中位数等)?
2、为什么用于主动学习的贪婪查询选择策略几乎总是表现最佳?
三、论文贡献
1、解释 异常检测器的集成是如何自然地适合主动学习,以及为什么贪婪的查询策略寻找标签的实例具有最高的异常得分。
2、提出了一种基于树的集成描述异常的方法,称为紧描述(CD)。结果表明,该方法可以提高已发现异常的多样性和可解释性。
3、开发了一种新的算法来可靠地检测数据流中的漂移,并设计了相关的算法,以原则性的方式使异常检测器适应流设置。
4、设计一种称为全局异常检测(GLocalized Anomaly Detection,GLAD)的新算法,该算法可用于通过标签反馈与一般(同源或异类)集成发现异常。
5、提供了大量的经验证据,支持我们对几个基准数据集的见解和算法。
四、概述
1、【问题描述】
(1)数据集D={x1,…,xn},xi是数据实例,yi∈ {−1,+1}是对应的标签,+1表示异常,-1表示正常
(2)m个异常检测器形成集成 E,该集成将得分z={z1,…,zm}分配给每个检测器
(3)用H表示所有未标记实例的集合得分矩阵。标记为+1的实例集的得分矩阵用H+表示,标记为-1的实例集的得分矩阵用H-表示。
2、【异常检测的主动学习框架】
- 该框架的目标是:学习最佳权重,以最大化显示给分析员的真实异常数。
- 该框架有一个分析师,他可以为交互循环中的任何实例提供真正的标签,如图所示。在主动学习循环的每次迭代中,我们执行以下步骤:
(1)根据查询选择策略QS从输入数据集中D选择一个或多个未标记的实例
(2)专家通过以可解释规则或解释的形式提供附加信息,向人类分析员查询所选实例的标签;
(3)根据标记实例和未标记实例的集合更新评分函数的权重。
3、【本文要解决的问题】
(1)基于一种新的异常检集成的观察,初始化评分函数得分Sorece(x)的参数Θ
(2)提高主动学习有效性的查询选择策略。
(3)基于标签反馈更新评分函数的权重。
(4)根据需要更新集成成员以支持流数据设置。
(5)对异常情况进行解释和解释,以提高人在环异常检测系统的可用性。
五、异常检测器集成适用于主动学习的原因
1、假设AD集成的所有成员的分数都是标准化的,位于[-1,1]或[0,1]之间,较高的分数意味着较多的异常。
下图说明了2D中集成成员的一些可能的标准化分数分布。当集成成员是“好的”时,他们将更高的分数分配给异常,并将其推到分数空间的一个极端区域,如图中的情况C1所示。这使得通过超平面将异常与正常分离变得更容易
2、一个玩具数据集上的这个场景的示例
(a) 玩具数据集 将作为贯穿全文的运行示例来说明这些想法。红点是异常点,黑点是正常点。
(b) 由IFOR分配给玩具数据集的异常分数。
(c) 来自IFOR和Wunif的得分向量之间角度的直方图分布。红色和绿色柱状图分别显示异常和名词的角度分布。由于红色直方图更靠近左边,所以异常更接近Wunif。
3、总结
(1)主动学习是很有吸引力的。
(2)贪婪策略查询标签中排名靠前的实例是有效的,因此也是评价其他查询策略性能的一个很好的尺度。
(3)通过主动学习来学习决策边界,将其推广到不可见的数据,这有助于在有限的内存或流数据设置中实现。
六、基于树的集成的主动学习算法
在这一部分中,描述了一系列基于树的集成的主动学习算法。
(1)首先,我们提出了基于树的异常检测器集合的优点,并描述了一种称为更深层隔离林的算法(第5.1节)。
(2)其次,我们提出了一种新的形式主义,称为紧凑描述,它使用基于树的模型来紧凑地描述实例组,并将其应用于改善选择用于标记的实例的多样性和生成简洁的可解释规则(第5.2节)。
(3)第三,我们描述了一种在批量设置中基于标签反馈更新评分函数权重的算法,在批量设置中,整个数据在一开始就可用(第5.3节)。
(4)第四,我们描述了支持流设置的算法,其中数据以连续流的形式出现(第5.4节)。
1、第2节,讨论相关工作
2、第3节中对我们的人在环学习框架进行了高层次的概
3、第4节中,我们描述了异常检测器集合实际成功的主要原因,并说明了它们唯一适合于标记有效的活动异常检测的特性。
4、第5节中,我们提出了一系列基于树型异常检测器集合的主动学习算法。
5、第6节中,我们讨论了基于广义检测器集合的主动学习的全局异常检测算法。
6、7节介绍了我们的实验结果,最后第8节给出了总结和未来工作的方向。
主动学习算法可以有选择地向人类分析师查询输入实例的标签,以提高其预测精度。总体目标是最小化查询的数量以达到目标性能。
……好多知识点不懂,放弃看了,但是思想是可以应用的