零已知标记的多变量时间序列异常检测
目录
摘要
多变量时间序列异常检测在一类分类环境下得到了广泛的研究,其中要求训练数据集具有所有正常实例。然而,准备这样的数据集是非常费力的,因为每个单个数据实例应该完全保证是正常的。因此,希望探索基于数据集的多变量时间序列异常检测方法,而无需任何标签知识。在本文中,我们提出了MTGFlow,一种无监督的异常检测方法,通过动态图和实体感知的归一化流的多变量时间序列异常检测,依赖于一个广泛接受的假设,即异常实例表现出稀疏的密度比正常。然而,实体之间复杂的相互依赖性和每个实体的不同固有特征提出了显着的挑战密度估计,更不用说检测异常的基础上估计的可能性分布。为了解决这些问题,我们提出学习实体之间的相互和动态关系,通过一个图结构学习模型,这有助于建模的准确分布的多元时间序列。此外,考虑到个体实体的不同特性,实体感知的归一化流程被开发以描述成参数化的正态分布的每个实体,从而产生细粒度的密度估计。结合这两种策略,MTGFlow实现了上级的异常检测性能。在具有七个基线的五个公共数据集上进行了实验,MTGFlow优于SOTA方法高达5.0 AUROC%。
简介
多变量时间序列(MTS)广泛存在于许多重要场景中,例如智能工厂中多个设备产生的生产数据和智能电网中各种传感器产生的监测数据。MTS中的异常在特定时间步长或时间段内表现出异常的数据行为。为了识别这些异常,以前的方法主要集中于仅从正常数据训练一类分类(OCC)模型(Wu和Keogh 2021; Schöolkopf等人1999; Su等人2019; Chen et al. 2021; Deng和Hooi 2021; Xu et al. 2021; Zhang等人2019年)。它们严重依赖于具有所有正常样本的训练数据集的假设(Ruff et al. 2021年)。
然而,这种假设在现实世界的场景中可能并不总是成立(Googe et al. 2021; Zhang,Zhao,and Li 2019; Zong等人2018; Qiu et al. 2022),导致具有正常和异常数据实例的混合的噪声训练数据集。同时,已经证实模型训练过程易于过拟合噪声标签(Zhang et al. 2021),使得那些基于OCC的方法的性能可能严重降级(Wang et al. 2019; Huyan et al. 2021年)。因此,开发基于绝对零已知标签数据集的无监督MTS异常检测方法是有益的。
一种有效的无监督策略是将数据集建模为分布,仅依赖于广泛接受的假设,即异常实例表现出比正常实例稀疏的密度,即低密度区域由异常样品组成,而高密度区域由正常样品形成(Gupta等人,2013; Pang,Cao,and Aggarwal 2021; Wang等人2020年)。已经探索了沿着这一策略的方法,关键的挑战在于分布的准确密度估计。时间序列密度被建模为参数化的概率分布(Salinas et al. 2020; Rasul et al. 2021; Feng等人2022),而对更复杂的数据分布建模仍然具有挑战性。为了提高密度估计的模型容量,Rasul et al.(Rasul et al. 2020)进一步利用归一化流来建模高维MTS的复杂分布(Rasul等人,2020)。2020年)。然而,他们忽略了组成序列之间的相互依赖性,这也发挥了重要作用的准确密度估计。
最相关的工作是GANF(Dai and Chen 2021),它处理了相同的MTS异常检测任务。在他们的设计中,静态有向无环图(DAG)被用来建模多个实体之间的棘手依赖性,并归一化流(Dinh,Sohl-Dickstein和Bengio 2016; Papamakarios,Pavlakou,and Murray 2017)用于估计所有实体的总体分布。尽管GANF之前已经实现了最先进的(SOTA)结果,但它仍然存在两个缺点。首先,在现实世界的应用程序中,实体之间的相互依赖关系不仅复杂,而且不断演变。这种动态特性不能简单地通过DAG结构来表征。第二,实体通常具有不同的工作机制,导致发生异常时具有不同的稀疏特征。GANF将所有实体投影到相同的分布中,从而导致对每个单独时间序列的密度估计的折衷。因此,最终的异常检测性能也可能降低。
在本文中,我们提出了MTGFlow,一个无监督异常检测方法MTS异常检测,以解决上述问题。首先,考虑到实体之间的演化关系,我们引入了一个图结构学习模块来建模这些可变的相互依赖关系。为了学习动态结构,自我注意模块(Vaswani et al. 2017)插入到我们的模型中,因为其在量化成对交互方面的上级性能。其次,针对个体实体之间存在的不同固有特征,我们设计了一个实体感知的归一化