论文研读 | Anomaly-Transformer:基于关联差异的时间序列异常检测方法

本文是由清华大学2022年发表于ICLR会议的一篇文章,作者创新地提出了一种新的无监督时序异常检测模型——Anomaly Transformer,该模型在服务器监测、地空探索、水流观测等应用中均展现出了优秀的异常检测结果。

ANOMALY TRANSFORMER: TIME SERIES ANOMALY DETECTION WITH ASSOCIATION DISCREPANCY

1.背景和问题

1.1. 研究背景

  时间序列中异常点的无监督检测是一个具有挑战性的问题。检测模型需要推导出一个可以区分正常与异常的准则。之前的方法主要是通过学习数据点表征或者多点之间的关联来解决该问题,然而这些方法都无法理解复杂的动态特性。近几年,Transformer模型在数据表征学习上取得了较好的效果,通过自注意力机制获得的每个时间点的权重,充分学习了时间点与整个序列的关系。然而,由于在实际任务中异常点是稀疏的,使得异常点与整个序列的关联很难建立,因此异常点的关联主要集中在邻近的时间点上。这种相邻点的偏差 (adjacent-concentration bias) 意味着基于关联的标准本质上可以区分正常点和异常点。本文通过关联差异(association discrepancy)来验证该猜想,提出了具有Anomaly-Attention mechanism 的 Anomaly Transformer 来计算关联差异,并设计了一个极小极大策略(minimax strategy)来放大关联差异。
  本文将Transformer引入无监督时序数据异常检测任务。首先提出全局的序列关联series-association,可直接通过Transformer模型来获取,即将 Transformer 应用于时间序列,每个时间点的时间关联可以从自注意力图中获得,它表示了序列中所有时间点的关联权重在时间维度上的分布。每个时间点的关联分布可以为时间上下文提供更丰富的信息来描述动态模式,例如时间序列的周期或趋势。
  进一步,本文引入了局部的先验关联prior-association。这是由于异常点的稀疏性导致异常点很难与整个序列建立较强的关联。 因此异常点的关联应集中在相邻的时间点上,相邻连续的时间点可能包含类似的异常模式。这种 adjacent-concentration inductive bias 被称为局部的先验关联prior-association。相比之下,占主导地位的正常时间点应该与整个序列的关联性更强。
  基于这一猜想,本文利用关联分布association distribution表示正常与异常的可区分性,并将其作为时序异常检测的标准,这是一个新的时序异常检测标准,通过对每个时间点的先验关联prior-association与序列关联series-association的距离进行量化,将结果称为关联差异Association Discrepancy。综上所述,由于异常点的关联更可能是相邻集中的,因此异常点将表现出比正常点更小的关联差异,即异常点的prior-association与series-association的差异更小。
  本文提出Anomaly Transformer来计算关联差异 Association Discrepancy,将self-attention机制更新为Anomaly-Attention机制,分别对每个时间点的prior-association和series-association进行建模。本文的创新点如下:

  • 提出了具有异常注意机制的Anomaly Transformer,可以同时建模先验关联和序列关联;

  • 提出了一种极大极小策略来放大关联差异,推导了一种新的基于关联差异的时序异常检测准则;

  • Anomaly Transformer在5个不同领域的数据集上达到了最先进的异常检测效果。

1.2. 研究问题

  本文的研究问题是,给定如下时间序列:

  本文的任务是在不给定标签的情况下,判断时间点是否是异常的。

2.方法介绍

2.1. Anomaly Transformer

  由于Transformer 在异常检测方面的局限性,本文使用 Anomaly-Attention 机制将原始attention更新为 Anomaly Transformer,如下图所示:

  Anomaly Transformer(左)同时建模了先验关联和序列关联。除了重构损失外,模型还通过极大极小策略进行优化,采用了特别设计的stop grad机制(灰色箭头),以约束先验关联和序列关联,获得区分性更大的关联差异。
  Anomaly Transformer 的特点是交替堆叠的 Anomaly-Attention blocks 和前馈层。 这种堆叠结构有利于从深层多层次特征中学习底层关联。假设模型包含L层长度为N的输入时间序列 ,则第l-th层可以表示为:

  其中, , 表示第l-th个输出层的维度是。初始输入=Embedding()表示对原始序列的嵌入表示。 是第l-th层的隐藏状态。Anomaly-Attention(.)用于计算关联差异association discrepancy。

2.2. Anomaly Attention

  原始的自注意力机制不能同时对先验关联和序列关联进行建模。 文中提出了具有两个分支结构的 Anomaly-Attention。

  对于先验关联,文中采用了可学习的高斯核来计算与时间距离相关的先验,高斯核的单峰特性更加关注邻域。文中在高斯核中也采用了可学习的标量参数 ,使得先验关联可以适应不同的时序模式,例如异常段的不同长度。对于序列关联,则直接从原始序列进行学习。对于l-th层,可以得到:

  其中,Q,K,V , 。, , 。在h个多头anomaly attention中,, ,最终的隐藏状态是每个头的隐藏状态的拼接。

2.3. Association Discrepancy

  本文将关联差异量化为先验关联和序列关联之间的对称 KL 散度,它表示这两个分布之间的信息增益,对来自多个层的关联差异进行平均:

  其中,KL(.||.)是和每一行的离散分布,AssDis(P, S, X)。最终计算结果的第i个元素对应于时间序列的第i个时间点。根据之前的描述,相比正常点,异常点将会表现出更小的AssDis(P, S, X)。

2.2. Minimax Association Learning

  本文采用重构误差来训练模型。为了进一步放大正常和异常时间点之间的差异,本文还使用了一个额外的损失来扩大关联差异。由于先验关联的单峰性,discrepancy loss会让序列关联更加关注不相邻的区域,使得异常的重构更加困难,异常的可识别性更强。对于输入序列,损失函数定义为:

  其中,是原始序列的重构序列。,分别代表F范数和k范数。是平衡项,当>0 ,目标是扩大关联差异。本文提出了一种极小极大策略使关联差异的区分性更强。如果模型最小化损失,就要最大化关联差异,而直接最大化关联差异,将使得高斯核的尺度参数急剧变小( 越小,图形越窄越集中),这使得先验序列失去意义。

  本文提出最大最小化策略,具体地:
  (1)在最小化阶段,优化先验关联P,让先验关联P近似从原始时序中学得的序列关联S,该过程将使得先验关联适应不同的时序模式,同时也避免先验关联的尺度参数学习的很小;
  (2)在最大化阶段,优化序列关联S,来最大化关联之间的差异,该过程将使得序列关联更加注意非临接的点,使得异常点的重建更加困难。
  综上,整合重构损失得到两阶段的损失函数是:

  为了实现最大最小学习方向的切换,可通过改变Loss里方向:由于要分开优化先验关联和序列关联,所以最小化阶段梯度传给先验关联,最大化阶段梯度传给序列关联。
  本文将归一化的关联差异包含到重构标准中,同时利用时间表示和可区分的关联差异。最终的异常分数通过下式计算:

  其中表示元素乘法, AnomalyScore表示输入序列的异常分数。异常检测的依据是关联差异标准化重构误差: AssDis越小,异常分数越大;重构误差越大,异常分数越大。

3.实验和结果

  本文在5个不同领域的数据集上进行了模型验证,数据集包括服务检测、地空探索等多个领域。Anomaly Transformer在5个数据集上均实现了SOTA的效果。

  为了进一步验证本文所提出的不同模块的有效性,设计消融实验验证了训练策略、先验关联、新的异常判据的有效性。

  针对5类不同的异常类别,本文可视化了其在不同异常判据下的区分性。数值越高意味着该点异常的概率越大。可以看到,基于关联的异常评判曲线有着更加准确的可区分性。

  针对5类不同的异常类别,本文可视化了其在先验关联中最终学得的的大小。可以看到,在异常点处的在整个序列中都比较小,这代表了它与非临接部分的关联非常弱,这也符合本文提出的异常点与整个序列构建强关联的假设。

4. 结论

  本文提出的时序异常检测方法Anomaly Transformer,根据经验发现异常点的关联更可能是相邻集中的,因此异常点将表现出比正常点更小的关联差异,即异常点的先验关联与序列关联的差异更小。本文将这种经验进行量化,提出了一种新的时序异常检测标准。实验结果表明该方法达到sota效果。
  从本文中,我们可以借鉴的思路是:在算法中如何将我们对于数据分布的理解和先验进行量化,提出有效的方法或准则;大多数时候我们是将这种先验转换为策略或规则,如果能够寻找到更统一通用的量化方法可以有效提高方法的泛化性和可移植性。

更多内容,敬请关注同名微信公众号:时空大数据兴趣小组。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值