【论文阅读】Adaptive Model Pooling for Online Deep Anomaly Detection from a Complex Evolving Data Stream

竹灬氓

已于 2022-12-09 19:21:50 修改

阅读量327

点赞数

分类专栏：异常检测时间序列检测文章标签：论文阅读深度学习 cnn

于 2022-12-09 19:20:13 首次发布

本文链接：https://blog.csdn.net/m0_46629911/article/details/128257967

版权

异常检测同时被 2 个专栏收录

5 篇文章 0 订阅

订阅专栏

时间序列检测

2 篇文章 0 订阅

订阅专栏

【论文阅读】Adaptive Model Pooling for Online Deep Anomaly Detection from a Complex Evolving Data Stream

文章来源：SIGKDD2022
原文链接：https://dl.acm.org/doi/10.1145/3534678.3539348

ABSTRACT

来自数据流的在线异常检测对于许多应用程序的安全和安保至关重要，但由于物联网设备和基于云的数据流复杂且不断发展，因此面临严峻挑战。不幸的是，现有的方法太短缺，无法应对这些挑战；在线异常检测方法承受着处理复杂性的负担，而离线深度异常检测方法则因数据分布的演变而受到影响。 本文提出了一个用于在线深度异常检测的框架Arcus ，它可以通过任何基于自动编码器的深度异常检测方法进行实例化。 **它使用自适应模型池方法处理复杂和不断变化的数据流，**使用两种新技术-概念驱动的推理和漂移感知模型池更新；前者检测最适合该异常的组合模型，后者动态地调整模型池以适应不断变化的数据流。 在高维度和概念漂移的十组数据的综合实验中， Arcus提高了基于自动编码器的最新方法的流变型的异常检测精度，以及最先进的流异常检测方法的异常检测精度，分别提高了22%和37%。

INTRODUCTION

当前数据流异常检测面临的两个挑战：

数据项与数据百计的特征使得数据流变得非常复杂
在离线异常检测中，数据流的统计特性会随着时间而不断变化，即概念漂移，使得原来训练的模型过时无法使用。

本文涉及计算方法来处理复杂的演化数据流。深异常检测[24]基于深层神经网络已被证明有效处理的复杂性,比经典方法(例如,饾憳最近的邻居[12])(23日25)。特别是,一个autoencoder (AE)已经被广泛使用,因为它是适合的无监督异常检测自然设置罕见的标签。现有先进的AE-based方法[38]11日14日,然而,是为离线设置和设计的,因此,不能有效应对不断变化的数据流。有一些递归神经网络(RNN)的方法提出了时间序列异常检测(9、20、28个,36)。然而,他们关注学习时态关系内部本地序列和增量更新单个模型,不适合处理任意变化的数据流。

现有处理方法:对于数据的复杂性，基于深度神经网络的深度异常检测已经被证明能够有效地处理复杂的数据，比如AE方法。但是，其是为离线设置和设计的，无法有效应对不断变化的数据流。**递归神经网络（RNN）**提出了对时间序列异常检测，但是他们关注时态关系内部本地序列和增量更新单个模型，不适合处理任意变化的数据流。

因此,本文的目的是提供一种新颖的框架网络异常检测,采用现有的深异常检测方法自适应地在网上设置,从而有效地处理的复杂性和演化数据流的挑战。

Main idea

现有流异常检测方法的常见的方法是建立一个初始模型和增量更新模型在,可以很容易地适用于深异常检测方法。然而,这个增量方法适应模型只最新的数据点,不管数据流是如何演化的。任意概念漂移的数据流,增量方法可能是无效的,因为它需要一些时间完全适应新的概念和低效,因为它很快就忘记之前的概念,在未来可能重新发生。

本文的主要思想是利用自适应模型池、管理多个组合模型在两种推理和适应复杂变化的数据流。面对概念漂移不定数量的多个模式,一个固定的模型或模型不能处理所有的人。因此模型池方法允许多个模型一起工作自适应地处理多个和时变概念漂移,从而实现通用的异常检测性能不同数量的意想不到的概念漂移。与现有的整体方法提前组模型是固定的,模型池成员是动态管理。

如图1所示,增量更新方法(上)一个固定的模型或模型不考虑概念漂移,而自适应方法(底部)使用一个模型池和调整它以响应概念drifts-by使用现有模型的最佳组合或创建一个新的模型。如图1所示,该自适应模型池带来明显的优势在任意概念漂移发生时异常检测的准确性。

两个关键方法：

概念推理:ARCUS计算传入的数据点的异常分数使用最好的组合等模型池。在优化个体模型不同数据点,ARCUS估计的可靠性决定模型对给定的数据点,决定多少每个模型有助于最终的异常分数,最大化模型的可用性池在不同的概念。
概念drift-aware更新:ARCUS 持续监控模型池对新传入数据点的可靠性。当模型池被评估为不适合最新的数据点时，可能是发生了概念漂移，ARCUS 更新模型池以合并针对新数据点概念优化的新模型，同时保持模型池尽可能紧凑。此更新使 ARCUS 能够有效地保持最佳性能，而不管概念漂移的模式如何。

PRELIMINARIES

Problem Setting

给定一个无界的数据点序列 ⟨。 . ., 𝑥𝑡−1, 𝑥𝑡, 𝑥𝑡+1, . . .⟩ 数据流到达时，带有参数 𝜃𝑀 的异常检测模型𝑀 计算各个数据点的异常分数，⟨。 . ., 𝑀(𝑥𝑡−1;𝜃𝑀), 𝑀(𝑥𝑡;𝜃𝑀), 𝑀(𝑥𝑡+1;𝜃𝑀), . . .⟩, 不断更新参数𝜃𝑀并将分数超过阈值的数据点报告为异常。图2说明了在流式批处理中执行的这种异常检测。𝑀首先使用来自数据流的一批新数据点𝐵进行推理，然后用于更新参数𝜃𝑀，遵循先验评估方案[6]，该方案旨在通过交叉训练和测试来评估在线流学习算法同一批次内。推理返回批处理𝐵中数据点的一组异常分数，即{𝑀(𝑥𝑖;𝜃𝑀) | 𝑥𝑖 ∈ 𝐵}，缩写为𝑀(𝐵;𝜃𝑀)。

Autoencoder-based Anomaly Detection

自动编码器 (AE) 是一种带有编码器𝐸和解码器𝐷的前馈神经网络，旨在尽可能精确地重建输入，使重建值 $\widehat{x}$ 与输出值x的误差最小。其中𝑍=𝐸(𝑋) 是输入𝑋的潜在表示。通常，给定输入𝑋的重构误差用作𝑋的异常分数。

Concept Drift

概念指的是某个区域数据的某种分布或统计特性。**概念漂移则是指概念随着时间的推移而任意发生变化的现象。**从形式上讲，如果输入数据点和它们的标签的联合概率在时间上发生变化，则在时间上发生概念漂移，即在时间上发生变化，即在时间上发生变化，即在时间上发生变化，即在时间上发生变化。

THE ARCUS FRAMEWORK

ARCUS是一个在线异常检测框架设计为任何AE-based深异常检测模型。ARCUS管理池的模型进行推理在一批数据流,然后更新模型池在批处理中发现适应新概念。ARCUS如图3所示的整体过程和算法1中概述。一旦池初始化模型,模型创建了第一批ARCUS重复,每批处理,异常检测使用概念推理和模型池适应使用概念drift-aware更新。异常检测步骤计算数据点在当前的异常分数批池中基于个人的可靠性模型对批处理(第4行和图3和图3 c)。模型池适应一步评估的整体可靠性模型池对当前批(第6行)并根据需要更新模型池(7−15行)。具体来说,如果模型池十分契合,ARCUS保持当前的模型只池和更新模型对池的增长贡献最大的可靠性(7−10和图3 b行);否则,ARCUS创建一个新的模型,然后合并用类似的现有模型(保持模型池尽可能紧凑)(11行−15和图3 d)。ARCUS然后返回电流的异常分数批(16行)。这两个步骤将在以下部分中详细讨论。

如上所述，该部分主要包括模型池的构建、模型池可靠性计算和模型池自适应更新两部分。

模型池

本文中异常检测模型使用AE(auto encode)编码器，模型池则是多个模型构成的序列。

可靠性计算

**模型的可靠性。**上文提到，当发生概念漂移时，模型可能对当前数据流(当前批)不再适用，此时便需要计算模型对当前批的可靠性，然后判断是否需要对模型池进行更新。

可靠性计算时，文章定义了M模型对当前批和最后一批分别的异常分数，根据两者差异判断当前模型的可靠性。文中采用了基于 Hoeffding 不等式的均值差界，最终得到了模型可靠性r_M，并通过对每个模型的标准化异常分数及其可靠性进行加权推理得到了批次的异常分数，详细数学推导及原理请移步原文。

模型池自适应更新

当带有从未见过的新概念的批次到达时，模型池中的所有模型𝑃都不会正确地对该批次进行推理。因此，ARCUS 估计模型池的整体可靠性来决定模型池是否需要更新。

模型合并。

由基于 AE 的模型学习的潜在表示 𝑍 预计包含最少但足够的输入信息。如果两个模型显示相同输入的相似潜在表示，则它们一定已经被相似概念的时间上分离的不相交批次更新，因此合并它们有助于消除模型池中的冗余并避免过度拟合。为此，ARCUS 使用中心核对齐 (CKA) 来衡量两个模型的相似性，因为它对正交变换和各向同性缩放具有不变性，因此被称为神经网络表示的最合适的相似性指标但对可逆线性变换不是不变的 [13]。衡量模型相似性数学原理见原文。

漂移感知模型池更新

ARCUS监控模型池的可靠性，并且在模型池不可靠度大于1-𝛼时触发池更新。当模型池至少具有单个高度可靠的模型（即，𝑟𝑀>𝛼），但是当池中的模型仅具有中性可靠性值（即，𝑟𝑀<<𝛼)的情况。我们将的默认值设置𝛼为0.95，这是统计学显著性检验中常用的值，意味着仅允许所有模型不可靠的可能性为5%，并且在第5.6节的敏感性分析中也证实了这一点。

认值设置𝛼为0.95**，这是统计学显著性检验中常用的值，意味着仅允许所有模型不可靠的可能性为5%，并且在第5.6节的敏感性分析中也证实了这一点。

一旦触发模型池的更新，ARCUS首先用当前批次创建新模型，并通过递归合并新模型与超过相似性阈值的最相似模型，以贪婪方式导出紧凑模型池𝛾。定义见原文。