【无监督时间序列异常检测】2022-ICLR-Anomaly Transformer：具有关联差异的时间序列异常检测

念啊啊啊啊丶

已于 2024-09-24 21:35:13 修改

阅读量898

点赞数 27

分类专栏：无监督时间序列异常检测文章标签：深度学习人工智能神经网络机器学习自然语言处理

于 2023-11-26 21:05:18 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/134612419

版权

无监督时间序列异常检测专栏收录该内容

3 篇文章

订阅专栏

Anomaly Transformer：具有关联差异的时间序列异常检测

论文地址

摘要

时间序列中异常点的无监督检测是一个具有挑战性的问题，这需要模型导出可区分的标准。以前的方法主要通过学习点表示或成对关联来解决该问题，然而，这两种方法都不足以推理复杂的动态。最近，Transformer 在点式表示和成对关联的统一建模方面表现出了强大的威力，我们发现每个时间点的自注意力权重分布可以体现与整个序列的丰富关联。我们的主要观察是，由于异常的稀有性，建立从异常点到整个序列的非平凡关联是极其困难的，因此，异常的关联将主要集中在其相邻时间点。这种相邻浓度偏差意味着基于关联的标准本质上可以区分正常点和异常点，我们通过关联差异来强调这一点。从技术上讲，我们提出了具有新的异常注意机制的 Anomaly Transformer 来计算关联差异。设计了极小极大策略来放大关联差异的正常与异常区分度。Anomaly Transformer 在三个应用的六个无监督时间序列异常检测基准上取得了最先进的结果：服务监控、空间和地球探索以及水处理。

1 引言

现实世界的系统总是以连续的方式工作，可以产生由多传感器监测的多个连续测量值，例如工业设备、空间探测器等。从大规模系统监测数据中发现故障可以简化为检测异常时间序列中的时间点，对于保证安全、避免经济损失非常有意义。但异常现象通常很少见，并且被大量正常点隐藏，使得数据标记变得困难且昂贵。因此，我们专注于无监督设置下的时间序列异常检测。

无监督时间序列异常检测在实践中极具挑战性。该模型应该通过无监督任务从复杂的时间动态中学习信息表示。尽管如此，它还应该得出一个可区分的标准，可以从大量正常时间点中检测出罕见的异常情况。各种经典的异常检测方法提供了许多无监督的范例，例如局部离群因子中提出的密度估计方法（LOF, (Breunig et al, 2000)），一类SVM中提出的基于聚类的方法（OC-SVM, (Scholkopf et al, ¨ 2001)）和 SVDD（Tax & Duin, 2004）。这些经典方法没有考虑时间信息，很难推广到未见过的真实场景。受益于神经网络的表示学习能力，最近的深度模型（Su et al, 2019; Shen et al, 2020; Li et al, 2021）取得了优异的性能。一类主要方法侧重于通过精心设计的循环网络学习点表示，并通过重建或自回归任务进行自我监督。这里，自然且实用的异常标准是逐点重建或预测误差。然而，由于异常的罕见性，逐点表示对于复杂的时间模式来说信息量较少，并且可能以正常时间点为主，使得异常难以区分。此外，重建或预测误差是逐点计算的，这不能提供时间上下文的全面描述。

另一类主要方法基于显式关联建模来检测异常。向量自回归和状态空间模型属于这一类。该图还用于通过以不同时间点作为顶点表示时间序列并通过随机游走检测异常来明确捕获关联（Cheng et al, 2008; 2009）。一般来说，这些经典方法很难学习信息表示和建模细粒度关联。最近，图神经网络（GNN）已被应用于学习多元时间序列中多个变量之间的动态图（Zhao et al, 2020; Deng & Hooi, 2021）。虽然更具表现力，但学习到的图仍然仅限于单个时间点，这对于复杂的时间模式来说是不够的。此外，基于子序列的方法通过计算子序列之间的相似性来检测异常（Boniol & Palpanas, 2020）。在探索更广泛的时间背景时，这些方法无法捕获每个时间点与整个序列之间的细粒度时间关联。

在本文中，我们将 Transfomers（Vaswani et al, 2017）应用于无监督状态下的时间序列异常检测。Transformer 在自然语言处理（Brown 等人，2020）、机器视觉（Liu 等人，2021）和时间序列（Zhou 等人，2021）等领域取得了巨大进步。这一成功归功于其在全局表示和远程关系的统一建模方面的强大能力。将 Transformer 应用到时间序列上，我们发现每个时间点的时间关联可以从自注意力图中获得，该图表示为沿着时间维度的所有时间点的关联权重的分布。每个时间点的关联分布可以为时间上下文提供更丰富的信息描述，指示动态模式，例如时间序列的周期或趋势。我们将上述关联分布命名为序列关联（series-association），它可以通过 Transformer 从原始序列中发现。

此外，我们观察到，由于异常的稀有性和正常模式的主导地位，异常更难与整个序列建立牢固的关联。异常的关联应集中在由于连续性而更可能包含相似异常模式的相邻时间点。这种邻近浓度感应偏置被称为先验关联（prior-association）。相反，主要的正常时间点可以发现与整个序列的信息关联，而不仅限于相邻区域。基于这一观察，我们尝试利用关联分布固有的正常与异常可区分性。这导致每个时间点都有一个新的异常标准，通过每个时间点的先前关联与其序列关联之间的距离来量化，称为关联差异。如前所述，由于异常的关联更有可能是相邻集中的，因此异常将呈现比正常时间点更小的关联差异。

超越以前的方法，我们将 Transformer 引入无监督时间序列异常检测，并提出用于关联学习的 Anomaly Transformer。为了计算关联差异，我们将自注意力机制更新为异常注意力，其中包含一个两分支结构来分别对每个时间点的先验关联和序列关联进行建模。先验关联采用可学习的高斯核来呈现每个时间点的相邻浓度归纳偏差，而序列关联对应于从原始序列中学习的自注意力权重。此外，在两个分支之间应用极小极大策略，可以放大关联差异的正常与异常可区分性，并进一步导出新的基于关联的标准。Anomaly Transformer 在六个基准测试中取得了优异的成绩，涵盖了三个实际应用。贡献总结如下：

基于对关联差异的关键观察，我们提出了具有异常注意机制的异常 Transformer，它可以同时对先验关联和序列关联进行建模以体现关联差异。
我们提出了一种极小极大策略来放大关联差异的正常与异常可区分性，并进一步推导出一种新的基于关联的检测标准。
Anomaly Transformer 在三个实际应用的六个基准上实现了最先进的异常检测结果，并通过广泛的消融和富有洞察力的案例研究证明了其合理性。

2 相关工作

2.1 无监督时间序列异常检测

作为一个重要的现实问题，无监督时间序列异常检测已被广泛探索。按异常判断标准分类，范式大致包括密度估计方法、基于聚类的方法、基于重构的方法和基于自回归的方法。

在密度估计方法中，经典方法如局部异常值因子（LOF, (Breunig et al, 2000)）和连通性异常值因子（COF, (Tang et al, 2002)）分别计算局部密度和局部连通性来确定异常值。DAGMM（Zong et al, 2018）和 MPPCACD（Yairi et al, 2017）整合高斯混合模型来估计表示的密度。

在基于聚类的方法中，异常分数始终被形式化为到聚类中心的距离。SVDD（Tax & Duin, 2004）和 Deep SVDD（Ruff et al, 2018）将正常数据的表示收集到一个紧凑的集群中。THOC（Shen et al, 2020）通过分层聚类机制融合中间层的多尺度时间特征，并通过多层距离检测异常。ITAD（Shin et al, 2020）对分解张量进行聚类。

基于重建的模型试图通过重建误差来检测异常。Park et al（2018）提出了 LSTM-VAE 模型，该模型采用 LSTM 主干进行时间建模，并使用变分自动编码器（VAE）进行重建。Su et al（2019）提出的 OmniAnomaly 通过归一化流进一步扩展了 LSTM-VAE 模型，并使用重建概率进行检测。Li et al（2021）的 InterFusion 将主干更新为分层 VAE，以同时对多个序列之间的相互和内部依赖性进行建模。GAN（Goodfellow et al, 2014）也用于基于重建的异常检测（Schlegl et al, 2019; Li et al, 2019a; Zhou et al, 2019）并作为对抗性正则化执行。

基于自回归的模型通过预测误差来检测异常。VAR 扩展了 ARIMA（Anderson & Kendall, 1976）并根据滞后相关协方差预测未来。自回归模型也可以用 LSTM 代替（Hundman et al, 2018; Tariq et al, 2019）。

本文的特点是一种新的基于关联的标准。与随机游走和基于子序列的方法（Cheng et al, 2008；Boniol & Palpanas, 2020）不同，我们的标准通过时间模型的共同设计来体现，以学习更多信息时间点关联。

2.2 用于时间序列分析的Transformer

最近，Transformers（Vaswani et al, 2017）在顺序数据处理方面表现出了强大的能力，例如自然语言处理（Devlin et al, 2019; Brown et al, 2020）、音频处理（Huang et al, 2019）和计算机视觉（Devlin et al, 2019; Brown et al, 2020）。对于时间序列分析，受益于自注意力机制的优势，Transformer 用于发现可靠的长程时间依赖性（Kitaev et al, 2020; Li et al, 2019b; Zhou et al, 2021; Wu et al ，2021）。特别是对于时间序列异常检测，Chen et al（2021）提出的 GTA 采用图结构来学习多个物联网传感器之间的关系，以及用于时间建模的 Transformer 和异常检测的重建标准。与之前 Transformer 的使用不同，Anomaly Transformer 将 self-attention 机制革新为基于关联差异关键观察的 Anomaly-Attention。

3 方法

假设监视连续的 $d$ 测量系统并记录一段时间内的等间隔观测值。观察到的时间序列 $\mathcal{X}$ 由一组时间点 $\left\{x_1,\ x_2,\ \cdot\cdot\cdot,\ x_N\right\}$ 表示，其中 $x_t\in\mathbb{R}^d$ 表示时间 $t$ 的观测值。无监督时间序列异常检测问题是在没有标签的情况下判断 $x_t$ 是否异常。

如上所述，我们强调无监督时间序列异常检测的关键是学习信息表示和找到可区分的标准。我们提出异常 Transformer 来发现更多信息关联，并通过学习关联差异来解决这个问题，关联差异本质上是正常与异常可区分的。从技术上讲，我们提出了异常注意来体现先验关联和序列关联，以及极小极大优化策略以获得更可区分的关联差异。与架构共同设计，我们根据学习到的关联差异得出基于关联的标准。

图 1

图 1：Anomaly Transformer。异常注意力（左）同时对先验关联和序列关联进行建模。除了重建损失之外，我们的模型还通过极小极大策略进行优化，并使用专门设计的停止梯度机制（灰色箭头）来约束先验关联和序列关联，以获得更可区分的关联差异。

3.1 Anomaly Transformer

鉴于 Transformer（Vaswani et al, 2017）在异常检测方面的局限性，我们将普通架构改造为具有 Anomaly-Attention 机制的 Anomaly Transformer（图 1）。

总体架构。Anomaly Transformer 的特点是交替堆叠 Anomaly-Attention 块和前馈层。这种堆叠结构有利于从深层多级特征中学习底层关联。假设模型包含 $L$ 层，长度为 $N$ 输入时间序列 $\mathcal{X}\in\mathbb{R}^{N\times d}$ 。第 $l$ 层的整体方程形式化为：

公式 1

其中 $\mathcal{X}^l\in\mathbb{R}^{N\times d_{model}}$ 模型， $l\in\left\{1,\ \cdot\cdot\cdot,\ L\right\}$ 表示具有 $d_{model}$ 通道的第 $l$ 层的输出。初始输入 $\mathcal{X}^0=Embedding\left(\mathcal{X}\right)$ 表示嵌入的原始序列。 $\mathcal{Z}^l\in\mathbb{R}^{N\times d_{model}}$ 是第 $l$ 层的隐藏表示。 ${\rm Anomaly-Attention}\left(\cdot\right)$ 是计算关联差异。

Anomaly-Attention，单分支自注意机制（Vaswani et al, 2017）无法同时对先验关联和序列关联进行建模。我们提出了具有两分支结构的 Anomaly-Attention（图 1）。对于先验关联，我们采用可学习的高斯核来计算相对时间距离的先验。受益于高斯核的单峰性质，该设计可以在本质上更加关注相邻层。我们还为高斯核使用可学习的尺度参数 $\sigma$ ，使先验关联适应各种时间序列模式，例如不同长度的异常段。序列关联分支是从原始序列中学习关联，可以自适应地找到最有效的关联。请注意，这两种形式维护了每个时间点的时间依赖性，这比逐点表示提供更多信息。它们还分别反映了相邻浓度先验和学习到的关联，其差异应是正常-异常可区分的。第 $l$ 层的 Anomaly-Attention 为：

公式 2

其中 $\mathcal{Q},\ \mathcal{K},\ \mathcal{V}\in\mathbb{R}^{N\times d_{model}},\ \sigma\in\mathbb{R}^{N\times1}$ 分别表示 self-attention 的 query、key、value 以及学习到的尺度。 $W_\mathcal{Q}^l,\ W_\mathcal{K}^l,\ W_\mathcal{V}^l\in\mathbb{R}^{d_{model}\times d_{model}},\ W_\sigma^l\in\mathbb{R}^{d_{model}\times1}$ 表示别在第 $l$ 层中的 $\mathcal{Q},\ \mathcal{K},\ \mathcal{V},\ \sigma$ 参数矩阵。基于学习的尺度 $\sigma\in\mathbb{R}^{N\times1}$ 生成先验关联 $\mathcal{P}^l\in\mathbb{R}^{N\times N}$ ，并且第 $i$ 个元素 $\sigma_i$ 对应于第 $i$ 个时间点。具体来说，对于第 $i$ 个时间点，其与第 $j$ 个点的关联权重由高斯核 $G\left(\left|j-i\right|,\ \sigma_i\right)=\frac{1}{\sqrt{2\pi}\sigma_i}exp\left(-\frac{\left|j-i\right|^2}{2\sigma_i^2}\right)$ w.r.t 计算距离 $\left|j-i\right|$ 。此外，我们使用 ${\rm Rescale}\left(\cdot\right)$ 通过除以行总和将关联权重转换为离散分布 $\mathcal{P}^l$ 。 $\mathcal{S}^l\in R^{N\times N}$ 表示串联。 ${\rm Softmax}\left(\cdot\right)$ 沿最后一个维度对注意力图进行归一化， $\mathcal{S}^l$ 的每一行形成离散分布。 ${\hat{\mathcal{Z}}}^l\in\mathbb{R}^{N\times d_{model}}$ 是第 $l$ 层 Anomaly-Attention 之后的隐藏表示。我们使用 ${\rm Anomaly-Attention}\left(\cdot\right)$ 来总结方程 2。在多头版本中，对于 $h$ 个头来说，学习的尺度是 $\sigma\in\mathbb{R}^{N\times h}$ 。 $\mathcal{Q}_m,\ \mathcal{K}_m,\ \mathcal{V}_m\in\mathbb{R}^{N\times\frac{d_{model}}{h}}$ 分别表示第 $m$ 个头的查询、键和值。该模块将多个头的输出 $\left\{{\hat{\mathcal{Z}}}_m^l\in\mathbb{R}^{N\times\frac{d_{model}}{h}}\right\}_{1\le m\le h}$ 连接起来，得到最终结果 ${\hat{\mathcal{Z}}}^l\in\mathbb{R}^{N\times d_{model}}$ 。

关联差异。我们将关联差异形式化为先验关联和序列关联之间的对称 KL 散度，它代表这两个分布之间的信息增益（Neal, 2007）。我们对多层的关联差异进行平均，以将多级特征的关联组合成信息更丰富的度量，如下所示：

公式 3

其中 $KL\left(\cdot k \cdot \right)$ 是对应于 $\mathcal{P}^l$ 和 $\mathcal{S}^l$ 的每一行的两个离散分布之间计算的 KL 散度。 ${\rm AssDis}\left(\mathcal{P},\ \mathcal{S},\ \mathcal{X}\right)\in\mathbb{R}^{N\times1}$ 是 $\mathcal{X}$ 相对于多层的先验关联 $\mathcal{P}$ 和序列关联 $\mathcal{S}$ 的逐点关联差异。AssDis 的第 $i$ 个元素对应于 $\mathcal{X}$ 的第 $i$ 个时间点。从之前的观察来看，异常点会呈现比正常时间点更小的 ${\rm AssDis}\left(\mathcal{P},\ \mathcal{S},\ \mathcal{X}\right)$ ，这使得 AssDis 本质上是可区分的。

图 3

图 2：极小极大关联学习。在最小化阶段，先验关联最小化由高斯核导出的分布族内的关联差异。在最大化阶段，级数关联在重建损失下最大化关联差异。

3.2 MiniMax Association Learning

作为一项无监督任务，我们利用重建损失来优化我们的模型。重建损失将指导序列关联找到信息最丰富的关联。为了进一步放大正常时间点和异常时间点之间的差异，我们还使用额外的损失来放大关联差异。由于先验关联的单峰特性，差异损失会引导序列关联更多地关注非相邻区域，这使得异常的重建更加困难，也使得异常更容易识别。输入序列 $\mathcal{X}\in\mathbb{R}^{N\times d}$ 的损失函数形式化为：

公式 4

其中 $\hat{\mathcal{X}}\in\mathbb{R}^{N\times d}$ 表示 $\mathcal{X}$ 的重构。 $||\cdot||_F, ||\cdot||_k$ 表示 Frobenius 和 k-norm。 $\lambda$ 是权衡损失项。当 $\lambda>0$ 时，优化是放大关联差异。提出了极小极大策略以使关联差异更加可区分。

最小最大策略。请注意，直接最大化关联差异将极大地减小高斯核的尺度参数（Neal, 2007），使得先验关联变得毫无意义。为了更好地控制关联学习，我们提出了极小极大策略（图 2）。具体来说，对于最小化阶段，我们驱动先验关联 $\mathcal{P}^l$ 来近似从原始序列中学习到的序列关联 $\mathcal{S}^l$ 。这个过程将使先验关联适应各种时间模式。对于最大化阶段，我们优化序列关联以扩大关联差异。这个过程迫使序列关联更多地关注非相邻的范围（non-adjacent horizon）。因此，整合重建损失，两个阶段的损失函数为：

公式 5

其中 $\lambda>0$ 和 $∗detach \ast_{detach}$ 意味着停止关联的梯度反向传播（图 1）。当 $\mathcal{P}$ 在最小化阶段逼近 $\mathcal{S}_{detach}$ 时，最大化阶段将对串联关联进行更强的约束，迫使时间点更多地关注非相邻区域。在重建损失下，异常比正常时间点更难实现，从而放大了关联差异的正常与异常可区分性。

基于关联的异常准则。我们将归一化的关联差异纳入重建准则中，这将同时受益于时间表示和可区分的关联差异。 $\mathcal{X}\in\mathbb{R}^{N\times d}$ 的最终异常得分如下：

公式 6

其中 $\bigodot$ 是逐元素乘法。 ${\rm AnomalyScore}\left(\mathcal{X}\right)\in\mathbb{R}^{N\times1}$ 表示 $\mathcal{X}$ 的逐点异常准则。为了更好的重建，异常通常会减少关联差异，这仍然会得到更高的异常得分。因此，这种设计可以使重建误差和关联差异协同提高检测性能。

4 实验

我们根据三个实际应用的六个基准对 Anomaly Transformer 进行了广泛评估。

数据集。以下是对六个实验数据集的描述：（1）SMD（Server Machine Dataset, Su et al (2019)）是从一家大型互联网公司收集的为期 5 周的数据集，具有 38 个维度。（2）PSM（Pooled Server Metrics, Abdulaal et al (2021)）是从 eBay 的多个应用服务器节点内部收集的，具有 26 个维度。（3）MSL（火星科学实验室漫游车）和 SMAP（土壤湿度主动被动卫星）都是 NASA（Hundman et al, 2018）的公共数据集，分别具有 55 和 25 维，其中包含来自意外事件的遥测异常数据航天器监测系统的异常（ISA）报告。（4）SWaT（安全水处理，Mathur & Tippenhauer (2016)）是从连续运行的关键基础设施系统的 51 个传感器获得的。（5）NeurIPS-TS（NeurIPS 2021 Time Series Benchmark）是 Lai et al（2021）提出的数据集，包括按行为驱动分类法分类为点全局、模式上下文、模式 shapelet 的五种时间序列异常场景，季节性模式和趋势模式。统计详情总结于附录表 13。

实现细节遵循 Shen et al（2020）中完善的协议，我们采用非重叠滑动窗口来获取一组子序列。所有数据集的滑动窗口大小固定为 100。如果时间点的异常分数（公式 6）大于某个阈值 $\delta$ ，我们将其标记为异常。确定阈值 $\delta$ 以使验证数据集的时间点的比例 $r$ 被标记为异常。对于主要结果，我们将 SWaT 设置为 $r=0:1\%$ ，将 SMD 设置为 0.5%，将其他数据集设置为 1%。我们采用广泛使用的调整策略（Xu et al, 2018; Su et al, 2019; Shen et al, 2020）：如果检测到某个连续异常段中的时间点，则将该异常段中的所有异常视为被正确检测到。从观察到异常时间点会引起警报并进一步使整个分段在实际应用中引起注意的观察来看，该策略是合理的。Anomaly Transformer 包含 3 层。我们将隐藏状态 d_{model} 的通道数设置为 512，头数 $h$ 为 8。所有数据集的超参数 $\lambda$ （方程 4）设置为 3，以权衡损失函数的两部分。我们使用 ADAM（Kingma & Ba, 2015）优化器，初始学习率为 10-4。训练过程在 10 个 epoch 内提前停止，批量大小为 32。所有实验均在 Pytorch（Paszke et al, 2019）中使用单个 NVIDIA TITAN RTX 24GB GPU 实现。

基线我们将我们的模型与 18 个基线进行了广泛比较，包括基于重建的模型：InterFusion (2021)、BeatGAN (2019)、OmniAnomaly (2019)、LSTM-VAE (2018)；密度估计模型：DAGMM (2018)、MPPCACD (2017)、LOF (2000)；基于聚类的方法：ITAD (2020)、THOC (2020)、Deep-SVDD (2018)；基于自回归的模型：CL-MPPCA (2019)、LSTM (2018)、VAR (1976)；经典方法：OC-SVM (2004)、IsolationForest (2008)。来自变化点检测和时间序列分割的另外 3 个基线被推迟到附录 I。InterFusion (2021) 和 THOC (2020) 是最先进的深度模型。

4.1 主要结果

真实世界数据集。我们在五个真实世界数据集和十个竞争基线上广泛评估我们的模型。如表 1 所示，Anomaly Transformer 在所有基准测试中均达到了一致的最新水平。我们观察到考虑时间信息的深度模型优于一般的异常检测模型，例如 Deep-SVDD（Ruff et al, 2018）和 DAGMM（Zong et al, 2018），这验证了时间建模的有效性。我们提出的 Anomaly Transformer 超越了 RNN 学习的逐点表示，并模拟了信息更丰富的关联。表 1 中的结果对于关联学习在时间序列异常检测中的优势具有说服力。另外，我们绘制了图 3 中的 ROC 曲线来进行完整的比较。Anomaly Transformer 在所有五个数据集上具有最高的 AUC 值。这意味着我们的模型在各种预设阈值下的假阳性和真阳性率方面表现良好，这对于实际应用非常重要。

表 1

表 1：Anomaly Transformer（我们的）在五个数据集中的定量结果。P、R 和 F1 分别表示精度、召回率和 F1 分数（以 % 表示）。F1 分数是精确率和召回率的调和平均值。对于这三个指标，值越高表示性能越好。

图 3

图 3：五个数据集的 ROC 曲线（横轴：假阳性率；纵轴：真阳性率）。AUC 值（ROC 曲线下面积）越高，表明性能越好。预定义阈值比例 r 为 {0.5%,\ 1.0%,\ 1.5%,\ 2.0%,\ 10%,\ 20%,\ 30%}。

NeurIPS-TS 基准。该基准是根据 Lai et al（2021）提出的精心设计的规则生成的，包括所有类型的异常，并涵盖逐点异常和模式异常。如图 4 所示，Anomaly Transformer 仍然可以实现最先进的性能。这验证了我们的模型对各种异常的有效性。

消融研究。如表 2 所示，我们进一步研究了模型中每个部分的效果。我们基于关联的标准始终优于广泛使用的重建标准。具体来说，基于关联的标准带来了 18.76%（76.20 $\rightarrow$ 94.96）的平均绝对 F1 分数显着提升。此外，直接以关联差异为标准仍然取得了良好的性能（F1-score：91.55%），并超越了之前最先进的模型 THOC（F1-score：根据表 1 计算的 88.01%）。此外，可学习的先验关联（对应于方程 2 中的 $σ$ ）和极小极大策略可以进一步改进我们的模型，分别获得 8.43％（79.05 $\rightarrow$ 87.48）和7.48％（87.48 $\rightarrow$ 94.96）的平均绝对提升。最后，我们提出的 Anomaly Transformer 比纯 Transformer 提高了 18.34%（76.62 $\rightarrow$ 94.96）的绝对改进。这些验证了我们设计的各个模块是有效的、必要的。更多关联差异的消除可以在附录 D 中找到。

表 2

表 2：异常标准、先验关联和优化策略的消融结果（F1 分数）。Recon、AssDis 和 Assoc 分别表示纯重建性能、纯关联差异和我们提出的基于关联的标准。Fix 是将先验关联的可学习尺度参数 \sigma 固定为 1.0。Max 和 Minimax 分别指最大化（公式 4）和最小最大（公式 5）方式的关联差异策略。

4.2 模型分析

为了直观地解释我们的模型如何工作，我们提供了三个关键设计的可视化和统计结果：异常标准、可学习的先验关联和优化策略。

异常标准可视化为了更直观地了解基于关联的标准如何工作，我们在图 5 中提供了一些可视化，并探索了不同类型异常下的标准性能，其中分类法来自 Lai et al（2021）。我们可以发现我们提出的基于关联的标准总体上更具区分性。具体来说，基于关联的标准可以获得正常部分一致的较小值，这在点上下文和模式季节性情况下形成鲜明对比（图 5）。相反，在上述两种情况下，重建准则的抖动曲线使检测过程变得混乱并失败。这验证了我们的标准可以突出异常并为正常点和异常点提供不同的值，从而使检测更加精确并降低误报率。

图 5

图 5：不同异常类别的可视化（Lai et al, 2021）。我们绘制了 NeurIPS-TS 数据集中的原始序列（第一行），以及它们相应的重建（第二行）和基于关联的标准（第三行）。点状异常用红色圆圈标记，模式异常用红色部分标记。错误检测的案例以红色框框出。

先前关联可视化。在极小极大优化期间，学习先验关联以接近级数关联。因此，学习到的 $\sigma$ 可以反映时间序列的相邻集中程度。如图 6 所示，我们发现 $\sigma$ 会发生变化以适应时间序列的各种数据模式。特别是，异常的先验关联通常比正常时间点具有更小的 $\sigma$ ，这与我们对异常的邻近浓度归纳偏差相匹配。

图 6

图 6：不同类型异常的学习尺度参数 σ（以红色突出显示）。

优化策略分析。仅考虑重建损失，异常时间点和正常时间点与相邻时间点的关联权重表现出相似的行为，对应的对比度值接近于 1（表 3）。最大化关联差异将迫使系列关联更多地关注非相邻区域。然而，为了获得更好的重建，异常点必须保持比正常时间点大得多的相邻关联权重，对应于更大的对比度值。但直接最大化会导致高斯核优化困难，无法如预期那样强力放大正常时间点与异常时间点的差异（SMD：1.15 $\rightarrow$ 1.27）。minimax 策略优化了先验关联，为序列关联提供更强的约束，从而获得比直接最大化更可区分的对比度值和更好的性能（SMD：1.27 $\rightarrow$ 2.39）。

表 3

表 3：分别为异常时间点和正常时间点的相邻关联权重的结果。Recon、Max 和 Minimax 分别表示由重建损失、直接最大化和极小极大策略监督的关联学习过程。对比度值（异常/正常）越高，表明正常时间点和异常时间点的区分能力越强。

5 结论和未来工作

本文研究无监督时间序列异常检测问题。与之前的作品不同，我们通过 Transformer 了解了更多信息丰富的时间点关联。基于对关联差异的关键观察，我们提出了 Anomaly Transformer，包括具有两分支结构的 AnomalyAttention 来体现关联差异。采用极小极大策略进一步放大正常时间点和异常时间点之间的差异。通过引入关联差异，我们提出了基于关联的准则，使得重构性能和关联差异相协调。Anomaly Transformer 通过一系列详尽的实证研究取得了最先进的结果。未来的工作包括根据自回归和状态空间模型的经典分析对 Anomoly Transformer 进行理论研究。

参考文献

Ahmed Abdulaal, Zhuanghua Liu, and Tomer Lancewicki. Practical approach to asynchronous multivariate time series anomaly detection and localization. KDD, 2021.
Ryan Prescott Adams and David J. C. MacKay. Bayesian online changepoint detection. arXiv preprint arXiv:0710.3742, 2007.
O. Anderson and M. Kendall. Time-series. 2nd edn. J. R. Stat. Soc. (Series D), 1976.
Paul Boniol and Themis Palpanas. Series2graph: Graph-based subsequence anomaly detection for time series. Proc. VLDB Endow., 2020.
Markus M. Breunig, Hans-Peter Kriegel, Raymond T. Ng, and Jorg Sander. LOF: identifying ¨ density-based local outliers. In SIGMOD, 2000.
Tom Brown, Benjamin Mann, Nick Ryder, Melanie Subbiah, Jared D Kaplan, Prafulla Dhariwal, Arvind Neelakantan, Pranav Shyam, Girish Sastry, Amanda Askell, Sandhini Agarwal, Ariel Herbert-Voss, Gretchen Krueger, Tom Henighan, Rewon Child, Aditya Ramesh, Daniel Ziegler, Jeffrey Wu, Clemens Winter, Chris Hesse, Mark Chen, Eric Sigler, Mateusz Litwin, Scott Gray, Benjamin Chess, Jack Clark, Christopher Berner, Sam McCandlish, Alec Radford, Ilya Sutskever, and Dario Amodei. Language models are few-shot learners. In NeurIPS, 2020.
Zekai Chen, Dingshuo Chen, Zixuan Yuan, Xiuzhen Cheng, and Xiao Zhang. Learning graph structures with transformer for multivariate time series anomaly detection in iot. ArXiv, abs/2104.03466, 2021.
Haibin Cheng, Pang-Ning Tan, Christopher Potter, and Steven A. Klooster. A robust graph-based algorithm for detection and characterization of anomalies in noisy multivariate time series. ICDM Workshops, 2008.
Haibin Cheng, Pang-Ning Tan, Christopher Potter, and Steven A. Klooster. Detection and characterization of anomalies in multivariate time series. In SDM, 2009.
Shohreh Deldari, Daniel V. Smith, Hao Xue, and Flora D. Salim. Time series change point detection with self-supervised contrastive predictive coding. In WWW, 2021.
Ailin Deng and Bryan Hooi. Graph neural network-based anomaly detection in multivariate time series. AAAI, 2021.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. In NAACL, 2019.
Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, and Neil Houlsby. An image is worth 16x16 words: Transformers for image recognition at scale. In ICLR, 2021.
I. Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron C. Courville, and Yoshua Bengio. Generative adversarial nets. In NeurIPS, 2014.
Cheng-Zhi Anna Huang, Ashish Vaswani, Jakob Uszkoreit, Ian Simon, Curtis Hawthorne, Noam Shazeer, Andrew M. Dai, Matthew D. Hoffman, Monica Dinculescu, and Douglas Eck. Music transformer. In ICLR, 2019.
Kyle Hundman, Valentino Constantinou, Christopher Laporte, Ian Colwell, and Tom Soderstr ¨ om. ¨ Detecting spacecraft anomalies using lstms and nonparametric dynamic thresholding. KDD, 2018.
Eamonn J. Keogh, Taposh Roy, Naik U, and Agrawal A. Multi-dataset time-series anomaly detection competition, Competition of International Conference on Knowledge Discovery & Data Mining 2021. URL https://compete.hexagon-ml.com/practice/competition/39/.
Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization. In ICLR, 2015.
Nikita Kitaev, Lukasz Kaiser, and Anselm Levskaya. Reformer: The efficient transformer. In ICLR, 2020.
Kwei-Herng Lai, D. Zha, Junjie Xu, and Yue Zhao. Revisiting time series outlier detection: Definitions and benchmarks. In NeurIPS Dataset and Benchmark Track, 2021.
Dan Li, Dacheng Chen, Lei Shi, Baihong Jin, Jonathan Goh, and See-Kiong Ng. Mad-gan: Multivariate anomaly detection for time series data with generative adversarial networks. In ICANN, 2019a.
Shiyang Li, Xiaoyong Jin, Yao Xuan, Xiyou Zhou, Wenhu Chen, Yu-Xiang Wang, and Xifeng Yan. Enhancing the locality and breaking the memory bottleneck of transformer on time series forecasting. In NeurIPS, 2019b.
Zhihan Li, Youjian Zhao, Jiaqi Han, Ya Su, Rui Jiao, Xidao Wen, and Dan Pei. Multivariate time series anomaly detection and interpretation using hierarchical inter-metric and temporal embedding. KDD, 2021.
F. Liu, K. Ting, and Z. Zhou. Isolation forest. ICDM, 2008.
Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Ching-Feng Lin, and Baining Guo. Swin transformer: Hierarchical vision transformer using shifted windows. ICCV, 2021.
Aditya P. Mathur and Nils Ole Tippenhauer. Swat: a water treatment testbed for research and training on ICS security. In CySWATER, 2016.
Radford M. Neal. Pattern recognition and machine learning. Technometrics, 2007.
Daehyung Park, Yuuna Hoshi, and Charles C. Kemp. A multimodal anomaly detector for robotassisted feeding using an lstm-based variational autoencoder. RA-L, 2018.
Adam Paszke, S. Gross, Francisco Massa, A. Lerer, James Bradbury, Gregory Chanan, Trevor Killeen, Z. Lin, N. Gimelshein, L. Antiga, Alban Desmaison, Andreas Kopf, Edward Yang, Zach ¨ DeVito, Martin Raison, Alykhan Tejani, Sasank Chilamkurthy, Benoit Steiner, Lu Fang, Junjie Bai, and Soumith Chintala. Pytorch: An imperative style, high-performance deep learning library. In NeurIPS, 2019.
Mathias Perslev, Michael Jensen, Sune Darkner, Poul Jø rgen Jennum, and Christian Igel. U-time: A fully convolutional network for time series segmentation applied to sleep staging. In NeurIPS. 2019.
Lukas Ruff, Nico Gornitz, Lucas Deecke, Shoaib Ahmed Siddiqui, Robert A. Vandermeulen, ¨ Alexander Binder, Emmanuel Muller, and M. Kloft. Deep one-class classification. In ¨ ICML, 2018.
T. Schlegl, Philipp Seebock, S. Waldstein, G. Langs, and U. Schmidt-Erfurth. f-anogan: Fast unsu- ¨ pervised anomaly detection with generative adversarial networks. Med. Image Anal., 2019.
B. Scholkopf, John C. Platt, J. Shawe-Taylor, Alex Smola, and R. C. Williamson. Estimating the ¨ support of a high-dimensional distribution. Neural Comput., 2001.
Lifeng Shen, Zhuocong Li, and James T. Kwok. Timeseries anomaly detection using temporal hierarchical one-class network. In Hugo Larochelle, Marc’Aurelio Ranzato, Raia Hadsell, MariaFlorina Balcan, and Hsuan-Tien Lin (eds.), NeurIPS, 2020.
Youjin Shin, Sangyup Lee, Shahroz Tariq, Myeong Shin Lee, Okchul Jung, Daewon Chung, and Simon S. Woo. Itad: Integrative tensor-based anomaly detection system for reducing false positives of satellite systems. CIKM, 2020.
Ya Su, Y. Zhao, Chenhao Niu, Rong Liu, W. Sun, and Dan Pei. Robust anomaly detection for multivariate time series through stochastic recurrent neural network. KDD, 2019.
Jian Tang, Zhixiang Chen, A. Fu, and D. Cheung. Enhancing effectiveness of outlier detections for low density patterns. In PAKDD, 2002.
Shahroz Tariq, Sangyup Lee, Youjin Shin, Myeong Shin Lee, Okchul Jung, Daewon Chung, and Simon S. Woo. Detecting anomalies in space using multivariate convolutional lstm with mixtures of probabilistic pca. KDD, 2019.
D. Tax and R. Duin. Support vector data description. Mach. Learn., 2004.
Robert Tibshirani, Guenther Walther, and Trevor Hastie. Estimating the number of clusters in a dataset via the gap statistic. J. R. Stat. Soc. (Series B), 2001.
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Ł ukasz Kaiser, and Illia Polosukhin. Attention is all you need. In NeurIPS, 2017.
Haixu Wu, Jiehui Xu, Jianmin Wang, and Mingsheng Long. Autoformer: Decomposition transformers with Auto-Correlation for long-term series forecasting. In NeurIPS, 2021.
Haowen Xu, Wenxiao Chen, N. Zhao, Zeyan Li, Jiahao Bu, Zhihan Li, Y. Liu, Y. Zhao, Dan Pei, Yang Feng, Jian Jhen Chen, Zhaogang Wang, and Honglin Qiao. Unsupervised anomaly detection via variational auto-encoder for seasonal kpis in web applications. WWW, 2018.
Takehisa Yairi, Naoya Takeishi, Tetsuo Oda, Yuta Nakajima, Naoki Nishimura, and Noboru Takata.
A data-driven health monitoring method for satellite housekeeping data based on probabilistic clustering and dimensionality reduction. IEEE Trans. Aerosp. Electron. Syst., 2017.
Hang Zhao, Yujing Wang, Juanyong Duan, Congrui Huang, Defu Cao, Yunhai Tong, Bixiong Xu, Jing Bai, Jie Tong, and Qi Zhang. Multivariate time-series anomaly detection via graph attention network. ICDM, 2020.
Bin Zhou, Shenghua Liu, Bryan Hooi, Xueqi Cheng, and Jing Ye. Beatgan: Anomalous rhythm detection using adversarially generated time series. In IJCAI, 2019.
Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang.
Informer: Beyond efficient transformer for long sequence time-series forecasting. In AAAI, 2021.
Bo Zong, Qi Song, Martin Renqiang Min, Wei Cheng, Cristian Lumezanu, Dae-ki Cho, and Haifeng Chen. Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In ICLR, 2018.

附录

A 参数灵敏度

我们在整个正文中将窗口大小设置为 100，这考虑了时间信息、内存和计算效率。我们根据训练曲线的收敛性来设置损失权重 $\lambda$ 。

此外，图 7 提供了不同选择窗口大小和损失权重下的模型性能。我们提出，我们的模型对于大量数据集上的窗口大小是稳定的（图 7 左）。请注意，较大的窗口大小表示较大的内存成本和较小的滑动数。特别是，仅考虑性能时，其与窗口大小的关系可以由数据模式确定。例如，当 SMD 数据集的窗口大小为 50 时，我们的模型表现更好。此外，我们采用等式 5 中的损失权重 $\lambda$ 来权衡重建损失和关联部分。我们发现 $\lambda$ 在 2 到 4 的范围内稳定且易于调整。上述结果验证了我们模型的灵敏度，这对于应用至关重要。

图 7

图 7：滑动窗口大小（左）和损失权重 \lambda（右）的参数敏感性。 \lambda=0 的模型仍然采用基于关联的标准，但仅通过重建损失进行监督。

B 实施细节

我们给出了算法 1 中 Anomaly-Attention 的伪代码。

算法 1

C 更多展示

为了获得主要结果的直观比较（表 1），我们将各种基线的标准可视化。 Anomaly Transformer 可以呈现最有区别的标准（图 8）。此外，对于现实世界的数据集，Anomaly Transformer 也可以正确检测异常。特别是对于 SWaT 数据集（图 9(d)），我们的模型可以在早期阶段检测到异常，这对于现实世界的应用很有意义，例如故障的早期预警。

图 8

图 8：NeurIPS-TS 数据集学习标准的可视化。异常情况用红色圆圈和红色线段标记（第一行）。基线的失败案例由红色框包围。

图 9

图 9：现实数据集中模型学习标准的可视化。我们选择数据的一个维度进行可视化。这些展示来自相应数据集的测试集。

D 关联差异的消除

我们给出了算法 2 中计算的伪代码。

算法 2

D.1 多级量化的消融

我们对多层的关联差异进行平均以获得最终结果（公式 6）。我们进一步研究单层使用下的模型性能。如表 4 所示，多层设计达到最好，验证了多层量化的有效性。

表 4

表 4：关联差异模型层差异选择下的模型性能。

D.2 统计距离的消融

我们选择以下广泛使用的统计距离来计算关联差异：

Symmetrized Kullback–Leibler Divergence (Ours).
Jensen–Shannon Divergence (JSD).
Wasserstein Distance (Wasserstein).
Cross-Entropy (CE).
L2 Distance (L2).

如表 5 所示，我们提出的关联差异定义仍然达到了最佳性能。我们发现 CE 和 JSD 都可以提供相当好的结果，原则上接近我们的定义，可以用来表示信息增益。 L2 距离不适用于差异性，忽略了离散分布的性质。 Wasserstein 距离在某些数据集中也失败了。原因是先验关联和系列关联在位置索引中完全匹配。尽管如此，Wasserstein 距离并不是逐点计算的，并且考虑了分布偏移，这可能会给优化和检测带来噪声。

表 5

表 5：不同关联差异定义下的模型性能。

D.3 先前关联的消除

除了具有可学习尺度参数的高斯核之外，我们还尝试使用具有可学习幂参数 $\alpha$ 的 power-law 核 $P\left(x;\alpha\right)=x-\alpha$ 进行先验关联，这也是单峰分布。如表 6 所示，power-law 核在大多数数据集上都能取得良好的性能。然而，由于尺度参数比功率参数更容易优化，高斯核仍然持续优于power-law核。

表 6

表 6：不同先验关联定义下的模型性能。我们的 Anomaly Transformer 采用高斯核作为先验。power-law 指的是 power-law kernel。

E 基于关联的标准的消融

E.1 计算

我们在算法 3 中给出了基于关联的准则的伪代码。

算法 3

E.2 标准定义的消融

我们探讨了不同异常标准定义下的模型性能，包括纯关联差异、纯重构性能以及关联差异和重构性能的不同组合方法：加法和乘法。

公式 7

从表 7 中，我们发现直接使用我们提出的关联差异也可以获得良好的性能，始终超过竞争基线 THOC（Shen et al, 2020）。此外，我们在等式 6 中使用的乘法组合表现最好，这可以为重建性能和关联差异带来更好的协作。

表 7

表 7：标准定义的消融。我们还包括最先进的深度模型 THOC（Shen et al, 2020）进行比较。 AssDis 和 Recon 分别代表纯关联差异和纯重建性能。我们的标准是指我们提出的基于关联的标准与乘法组合。

F 极小极大优化的收敛性

我们模型的总损失（方程 4）包含两部分：重建损失和关联差异。为了更好地控制关联学习，我们采用极小极大策略进行优化（公式 5）。在最小化阶段，优化趋势是最小化关联差异和重建误差。在最大化阶段，优化趋势是最大化关联差异并最小化重建误差。

我们绘制了训练过程中上述两部分的变化曲线。如图 10 和 11 所示，总损失的两个部分都可以在所有五个现实数据集上的有限迭代内收敛。这种良好的收敛特性对于我们模型的优化至关重要。

图 10

图 10：训练期间真实数据集中重建损失 ||\mathcal{X}-\hat{\mathcal{X}}||^2_F 的变化曲线。

图 11

图 11：训练过程中真实数据集中关联差异 ||AssDis\left(\mathcal{P},\ \mathcal{S};\ \mathcal{X}\right)|| 的变化曲线。

G 模型参数灵敏度

在本文中，我们按照 Transformers 的约定设置超参数 $L$ 和 $d_{model}$ （Vaswani et al, 2017; Zhou et al, 2021）。

此外，为了评估模型参数敏感性，我们研究了不同层数 $L$ 和隐藏通道 $d_{model}$ 选择下的性能和效率。一般来说，增加模型大小可以获得更好的结果，但内存和计算成本也更大。

表 8

表 8：不同层数 L 选择下的模型性能。

表 9

表 9：不同隐藏通道数 d_{model} 选择下的模型性能。 Mem 表示平均 GPU 内存成本。时间是训练过程中 100 次迭代的平均运行时间。

H 阈值选择协议

我们的论文重点关注无监督时间序列异常检测。实验上，每个数据集包括训练、验证和测试子集。异常仅在测试子集中标记。因此，我们按照 Gap Statistic method (Tibshirani et al, 2001) in K-Means 选择超参数。以下是选择程序：

训练阶段结束后，我们将模型应用于验证子集（无标签）并获得所有时间点的异常分数（公式 6）。

我们计算验证子集中异常分数的频率。据观察，异常分数的分布分为两个簇。我们发现异常得分较大的簇包含 $r$ 个时间点。对于我们的模型，SWaT、SMD 和其他数据集的 $r$ 分别接近 0.1%、0.5%、1%（表 10）。

由于测试子集的大小在实际应用中仍然无法访问，我们必须将阈值固定为固定值 $\delta$ ，这可以保证验证集中 $r$ 个时间点的异常分数大于 $\delta$ ，从而被检测为异常。

表 10

表 10：验证集上异常得分分布的统计结果。我们统计几个时间间隔内具有相应值的时间点的数量。

需要注意的是，直接设置 $\delta$ 也是可行的。根据表 10 中的区间，我们可以将 SMD、MSL 和 SWaT 数据集的 $\delta$ 固定为 0.1，将 SMAP 和 PSM 数据集的 $\delta$ 固定为 0.01，这会产生与设置 $r$ 非常接近的性能。

在实际应用中，所选异常的数量始终由人力资源决定。在此考虑下，通过比率 $r$ 来设置检测到的异常数量更加实用，并且更容易根据可用资源来决定。

表 11

表 11：模型性能。按 \delta 选择意味着我们将 SMD、MSL 和 SWaT 数据集的 \delta 固定为 0.1，SMAP 和 PSM 数据集的 \delta 固定为 0.01。选择 r 意味着我们为 SWaT 选择 r 为 0:1%，为 SMD 选择 0:5%，为其他数据集选择 1%。

I 更多基线

除了时间序列异常检测方法之外，变化点检测和时间序列分割方法也可以作为有价值的基线。因此，我们还包括来自变化点检测的 BOCPD（Adams & MacKay, 2007）和 TS-CP2（Deldari et al, 2021）以及来自时间序列分割的 UTime（Perslev et al, 2019）进行比较。 Anomaly Transformer 仍然达到了最佳性能。

表 12

表 12：Anomaly Transformer（我们的）在五个真实世界数据集中的其他定量结果。 P、R 和 F1 分别表示精度、召回率和 F1 分数（以 % 表示）。 F1 分数是精确率和召回率的调和平均值。对于这些指标，值越高表示性能越好。

J 局限性和未来工作

窗口大小。如附录 A 图 7 所示，如果窗口大小对于关联学习而言太小，则模型可能会失败。但《Transformer》的复杂度却是二次方。窗口大小。实际应用需要进行权衡。

理论分析。作为一个完善的深度模型，变形金刚的性能在之前的作品中已经被探索过。但对于复杂深层模型的理论仍处于探索之中。未来，我们将根据自回归和状态空间模型的经典分析来探索 Anomaly Transformer 定理，以获得更好的论证。

K 数据集

这是实验数据集的统计详细信息。

表 13

表 13：基准的详细信息。 AR 代表整个数据集的真实异常比例。

L UCR 数据集

UCR 数据集是 KDD2021 多数据集时间序列异常检测竞赛（Keogh et al, Competition of International Conference on Knowledge Discovery & Data Mining 2021）提供的一个非常具有挑战性且全面的数据集。整个数据集包含 250 个子数据集，涵盖各种现实场景。 UCR 的每个子数据集只有一个异常段并且只有一维。这些子数据集的长度从 6,684 到 900,000 不等，并预先分为训练集和测试集。

我们还在 UCR 数据集上进行了实验以进行广泛的评估。如表 14 所示，我们的 Anomaly Transformer 在这一具有挑战性的基准测试中仍然达到了最先进的水平。

表 14