【无监督时间序列异常检测】2023-NIPS-用于多元时间序列异常检测的 MEMTO 内存引导 Transformer

念啊啊啊啊丶

已于 2024-09-25 09:34:27 修改

阅读量1.3k

点赞数 14

分类专栏：无监督时间序列异常检测文章标签：深度学习人工智能机器学习神经网络自然语言处理

于 2023-12-21 22:44:10 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/135138849

版权

无监督时间序列异常检测专栏收录该内容

3 篇文章

订阅专栏

用于多元时间序列异常检测的 MEMTO 内存引导 Transformer

论文地址

摘要

由于复杂的时间依赖性和变量间的相关性，检测现实世界的多元时间序列数据中的异常具有挑战性。最近，基于重建的深度模型已被广泛用于解决该问题。然而，这些方法仍然存在过度泛化的问题，并且无法提供一致的高性能。为了解决这个问题，我们提出了 MEMTO，一种使用基于重建方法的记忆引导 Transformer。它被设计成包含一种新颖的内存模块，该模块可以学习每个内存项应响应输入数据而更新的程度。为了稳定训练过程，我们使用两阶段训练范例，其中涉及使用 $K$ 均值聚类来初始化内存项。此外，我们引入了一种基于偏差的二维检测标准，该标准考虑输入空间和潜在空间来计算异常分数。我们在来自不同领域的五个真实世界数据集上评估了我们提出的方法，它的平均异常检测 F1 分数为 95.74%，显着优于以前的最先进方法。我们还进行了广泛的实验，以凭经验验证我们提出的模型关键组件的有效性。

1. 引言

随着网络物理系统的进步，大量的时间序列数据被不断地从众多的传感器收集。水处理设施和太空探测器等关键基础设施故障导致的异常可能会造成致命的财产损失。多元时间序列异常检测的任务涉及识别多元时间序列的每个时间戳是正常还是异常。由于严重的数据不平衡和未标记异常的普遍存在，现实场景中的异常检测具有挑战性。我们已将该问题制定为无监督学习任务来应对这些挑战。这种方法的基本假设是训练数据仅由正常样本组成 [25, 42]。

传统的无监督学习方法如一类支持向量机（OC-SVM）[28]、支持向量数据描述（SVDD）[35]、隔离森林 [20] 和局部离群因子（LOF）[5] 已被广泛使用用于异常检测任务。最近，还提出了与深度表示学习相结合的密度估计方法，例如 DAGMM [45] 和 MPPCACD [41]。对于基于聚类的方法，Deep SVDD [25] 在使用深度神经网络训练的特征空间中找到包围大多数正常样本的最小超球体。然而，由于无法捕获动态非线性时间依赖性和复杂的变量间相关性，它们在时间序列域中表现不佳。为解决这些固有的挑战而引入了针对序列数据定制的深度模型 [30, 7, 29]。THOC [29] 使用可微的层次聚类机制来组合不同分辨率的不同尺度的时间特征。多个超球体用于表示不同分辨率下的每个正常模式，提高了捕获时间序列数据的复杂时间特征的表示能力。

最近深度方法的主要类型之一是基于重构的方法，它使用由重构输入的自监督借口任务训练的编码器-解码器架构。这种方法期望正常样本的精确重建和异常样本的高重建误差。早期的方法包括基于 LSTM 的编码器-解码器模型 [22] 和 LSTM-VAE [23]。OmniAnomaly [31] 和 InterFusion [19] 是从 LSTM-VAE 扩展而来的其他基于随机循环神经网络的模型。基于重建的方法的另一个分支是深度生成模型。MAD-GAN [17] 和 BeatGAN [42] 是为时间序列异常检测量身定制的生成对抗网络 [9] 变体。最近提出的 Anomaly Transformer [40] 引入了 Anomaly-Attention 机制来同时对先验关联和序列关联进行建模。然而，据我们所知，现有的基于重建的方法可能会遇到过度泛化的问题，即异常输入被重建得太好 [8, 24]。如果编码器提取异常的独特特征或者解码器对异常编码向量具有过多的解码能力，则可能会发生这种情况。

我们的论文提出了一种新的基于重建的方法，即记忆引导 Transformer，用于多元时间序列异常检测（MEMTO）。MEMTO 的关键组件之一是门控内存模块，其中包括代表数据中正常模式原型特征的项。我们采用增量方法来训练门控内存模块中的各个项目。它根据输入数据确定每个现有项目应更新的程度。这种方法使 MEMTO 能够以更加数据驱动的方式适应不同的正常模式。使用存储器项中存储的正常模式的特征来重建异常样本可以导致类似于正常样本的重建输出。在这种情况下，MEMTO 很难重建异常，从而释放了过度泛化的问题。此外，我们注意到，如果随机初始化内存项，则增量更新内存项可能会导致训练不稳定。因此，我们提出了一种两阶段训练范例，通过应用 K 均值聚类将正常原型模式的归纳偏差注入到记忆项中，以确保稳定的训练。此外，我们的观察表明，与正常时间点相比，异常的潜在表征与记忆项目的距离要远得多，因为每个项目都包含正常模式的原型。因此，在计算异常分数时，我们尝试充分利用记忆项目存储正常模式原型特征的性质。我们引入了一种基于偏差的二维检测标准，该标准综合考虑了输入空间和潜在空间。我们的方法已经在五个标准基准上进行了测试，其中包括实际应用程序。实验结果表明，与现有方法相比，我们的方法是有效的并且实现了最先进的异常检测结果。本文的贡献有四个方面：

我们提出的 MEMTO 是第一个使用门控内存模块的多元时间序列异常检测方法，它以数据驱动的方式适应不同的正常模式。
我们提出了一个两阶段训练范例，这是一种普遍适用的方法，旨在增强基于内存模块的模型的稳定性和鲁棒性。
我们在在线检测过程中提出了一种基于偏差的二维检测标准。它考虑潜在空间和输入空间来全面聚合数据中的信息。
MEMTO 在五个真实世界基准数据集上取得了最先进的结果。广泛的消融研究证明了 MEMTO 关键组件的有效性。

2. 相关工作

在本节中，我们对内存网络进行简要说明。[11, 38] 是可检索和写入的外部记忆的早期研究。[34] 提出了记忆网络[38]的改进版本，它使用注意机制 [3] 来检索记忆条目，因此由于端到端的训练方式而需要较少的训练监督。最近，人们做出了一些尝试将存储网络应用于各个领域。自然语言处理包括问答 [16, 39, 11, 34]。在计算机视觉中，存在视频表示学习 [12]、一次性学习 [14, 6, 27]和文本到图像合成 [44]。此外，一些作品还采用内存网络进行计算机视觉中的异常检测 [8, 24, 21]。尽管 MemAE [8] 是第一个将记忆网络集成到自动编码器架构中的，但它缺乏显式的记忆更新过程。MNAD [24] 提出了一种独特的内存更新策略，其中涉及在内存项中显式存储正常数据的不同正常模式。尽管如此，这种方法只是将相关查询的加权和添加到每个内存项，而不控制新信息注入现有内存项的程度。然而，我们在 MEMTO 中的门控内存模块是第一个以数据驱动的方式适应不同正常模式的模块，它通过学习每个现有内存项应更新的强度来响应新的正常模式。

3. 方法

3.1 MEMTO总体描述

我们将原始时间序列 $D$ 定义为一组子序列 $D={X^1,\ ...,\ X^N}$ ，其中 $N$ 表示子系列的总数。每个子系列 $X_s\in\mathbb{R}^{L\times n}$ 是时间戳序列 $x_1^s,...\ ,\ x_L^s]$ 。 $L,\ n$ 和 $x_t^s\in\mathbb{R}^n$ 分别表示子系列长度、输入维度和时间 $t$ 的时间戳。 $q^s=[q_1^s,\ .\ ..,\ q_L^s]\in\mathbb{R}^{L\times C}$ 是指对应于 $X^s$ 的编码器输出特征（即查询序列），其中 $C$ 表示潜在维度。 $q_t^s\in\mathbb{R}^C\left(t=1,\ .\ .\ .\ ,\ L\right)$ 是时间 $t$ 处的单个查询向量（即查询）。

图 1 展示了 MEMTO 的整体架构，主要由带有门控内存模块的编码器-解码器架构组成。输入子系列 $X^s$ 首先被馈送到编码器，然后使用编码器输出特征作为查询来检索相关项目或更新门控内存模块中的项目。解码器的输入是更新后的查询 ${\hat{q}}_t^s\in\mathbb{R}^{2C}\left(t=1,\ ...,\ L\right)$ ，它们是查询 $q_t^s$ 和检索到的内存项 ${\widetilde{q}}_t^s\in\mathbb{R}^{C}$ 的组合特征。解码器映射更新后的查询序列 ${\hat{q}}^s=[{\hat{q}}_1^s\ ,...\ ,\ {\hat{q}}_L^s]$ 回到输入空间，并输出重构的输入子序列 ${\hat{X}}^s\in\mathbb{R}^{L\times n}$ 。算法 2 显示了我们在附录 B 中提出的模型的总体机制。

图 1

图 1：拟议的 MEMTO 的图示。绿色 ▷◁ 描绘了 Gated 内存更新阶段的更新门 \psi，它控制更新项的程度。红色 ⊕ 表示查询 q_t^s 和检索到的内存项 q_t^s 的串联。“弱解码器” 代表两个完全连接的层。

3.1.1 编码器和解码器

众所周知，Transformer [36] 可以捕获时间序列数据 [43] 中的长期复杂时间模式。MEMTO 使用 Transformer 编码器将输入子序列投影到潜在空间中。相反，我们采用由两个全连接层组成的弱解码器。解码器不应过于强大，这一点至关重要，因为这可能导致其性能独立于编码器对输入时间序列进行编码的能力。在极端情况下，由多个深层组成的强大解码器甚至可以从不包含输入数据信息的随机噪声中准确地生成输入数据 [37]。

3.1.2 门控内存模块

为了解决基于重建的模型中过度泛化的问题，我们引入了一种新的内存模块机制，该机制以数据驱动的方式适应不同的正常模式。在这种方法中，存储在存储器模块中的每个项目代表正常数据的原型特征。我们提出的两阶段迭代更新过程允许我们使用存储在内存模块中的正常数据的原型模式来提取输入子系列的潜在表示，这充当正则化以减轻过度泛化。这种机制旨在限制编码器捕获异常独特属性的能力，从而使重建异常数据变得更具挑战性。

门控内存更新阶段。内存项 $m_i\in\mathbb{R}^C\left(i=1,\ .\ .\ .\ ,\ M\right)$ ，其中 $M$ 表示内存项的数量，被训练为包含输入时间序列的原型正常模式 [24]。我们期望内存项包含与正常时间戳相对应的所有查询 $q_t^s$ 的原型。因此，我们采用增量方法通过定义查询条件记忆注意力 $v_{i,t}^s$ 来更新记忆项。它是通过 softmax 计算每个内存项和查询之间的点积，如下所示：

公式 1

其中 $\tau$ 表示温度超参数。我们在记忆模块机制中提出了更新门 $\psi$ ，以根据各种正常模式灵活地训练每个记忆项。该门控制从查询中新获取的正常模式被注入到存储在存储器项中的现有原型正常模式的程度。它允许我们的模型了解每个现有记忆项应该以数据驱动的方式更新到什么程度。我们的内存更新机制的方程是：

公式 2

公式 3

其中 $U_\psi$ 和 $W_\psi$ 表示线性投影， $\sigma$ 和 $◦$ 分别表示 sigmoid 激活和元素乘法。内存更新阶段仅在训练阶段执行。

查询更新阶段。在查询更新阶段，我们生成更新的查询 ${\hat{q}}_t^s$ ，然后将其作为输入馈送到解码器。与门控内存更新阶段类似，我们定义内存条件查询注意力 $w_{t,i}^s$ ，由每个查询和内存项之间的点积的 softmax 计算得出，如下所示：

公式 4

然后，通过对 $m_i$ 项进行加权求和，得到检索到的记忆项 ${\widetilde{q}}_t^s$ ，以 $w_{t,i}^s$ 作为其对应的权重，如下：

公式 5

查询 $q_t^s$ 和检索到的内存项 ${\widetilde{q}}_t^s$ 沿特征维度连接以构成更新的查询 ${\hat{q}}_t^s$ 。更新后的查询 ${\hat{q}}_t^s\left(t=1,\ ...,\ L\right)$ 是解码器的新鲁棒输入，因为 $q_t^s$ 中异常的独特属性可以通过内存项中的相关正常模式来抵消。异常的重建输出通常看起来与正常样本相似，这使得重建异常变得更具挑战性。这种难度的加大有助于更有效地区分正常数据和异常数据，防止过度概括。

3.2 训练

对于自我监督的借口任务，我们在训练时最小化重建损失。重建损失 $L_{rec}$ 定义为 $X^s$ 和 ${\hat{X}}^s$ 之间的 L2 损失：

公式 6

密集的 $W^s$ 使得一些异常有可能得到很好的重建[8]，其中 $W^s$ 表示在（4）中 $w_{t,i}^s\ \left(t=1,\ .\ .\ .\ ,\ L\right) 和 \left(i=1,\ .\ .\ .\ ,\ M\right)$ 的矩阵形式。因此，为了保证仅检索内存中有限数量的密切相关的正常原型，我们引入熵损失 $L_{entr}$ 作为 $W^s$ 稀疏正则化的辅助损失：

公式 7

目标函数L是最小化损失项（6）和（7）的组合，如下：

公式 8

其中 $\lambda$ 表示加权系数。

3.3 两阶段训练范式

使用 K 均值聚类初始化内存项由于我们增量更新内存项，因此如果随机初始化项，则在训练期间存在不稳定的风险。我们提出了一种新颖的两阶段训练范例，它使用聚类方法将内存项的初始值设置为数据的近似正常原型模式。在第一阶段，MEMTO 通过重构输入的自监督任务进行训练，经过训练的 MEMTO 编码器为随机采样的 10% 训练数据生成查询。

然后，我们应用 K 均值聚类算法对查询进行聚类，并将每个质心指定为内存项的初始值。在第二阶段，MEMTO 使用这些初始化良好的项目进行异常检测任务的训练。算法 1 概述了使用 K 均值聚类的内存模块初始化。在我们所有的实验中，我们使用 K 均值聚类作为基线聚类方法。我们的主张并不是 K 均值聚类是各种聚类方法中的最佳选择，而是两阶段训练范例的有效性，该范例允许根据数据集的类型选择适当的聚类算法。

算法 1

3.4异常标准

我们引入了一种综合考虑输入和潜在空间的基于偏差的二维检测标准。我们将时间点 $t$ 处的潜在空间偏差（LSD） $LSD\left(q_t^s,\ m\right)$ 定义为每个查询 $q_t^s$ 与其在潜在空间中最近的内存项 $m_t^{s,pos}$ 之间的距离（9）。异常的 LSD 会比正常时间点的 LSD 大，因为每个记忆项都包含正常模式的原型。此外，我们将时间 $t$ 处的输入空间偏差（ISD） $ISD\left(X_{t,:}^s,\ {\hat{X}}_{t,\ :}^s\right)$ 定义为输入空间中输入 $X_{t,\ :}^s\in\mathbb{R}^n$ 与重构输入 ${\hat{X}}_{t,\ :}^s\in\mathbb{R}^n$ 之间的距离（10）。

公式 9

公式 10

我们将归一化的 LSD 与 ISD 相乘，使用 LSD 作为权重来放大 ISD 中的正常与异常差距：

公式 11

其中 $◦$ 是逐元素乘法， $A\left(X^s\right)\in\mathbb{R}^L$ 是每个时间点的异常分数。利用潜在空间（即潜在空间偏差）和输入空间（即输入空间偏差）中的正常与异常区分标准可以带来更好的检测性能。

4. 实验

4.1 实验设置

数据集。我们在五个真实世界的多元时间序列数据集上评估 MEMTO。（i）服务器机器数据集（SMD [33]）是一家大型互联网公司发布的在五周内收集的具有 38 个维度的大型数据集。（ii & iii）火星科学实验室漫游车 (MSL) 和土壤湿度主动被动卫星（SMAP）是 NASA 发布的公开数据[13]，分别有 55 维和 38 维。（iv）安全水处理（SwaT [18]）由六阶段基础设施流程组成，其中包含 51 个传感器，连续运行 11 天。（v）池化服务器指标（PSM [1]）由来自 eBay 的不同应用服务器节点的 26 个维度的数据组成。有关数据集的更多详细信息，请参阅附录 A。

实现细节。我们通过应用长度为 100 的非重叠滑动窗口来生成子系列，以获得每个数据集的固定长度输入。我们将训练数据分为 80% 用于训练，20% 用于验证。关于超参数设置的更多详细信息可以在附录A中找到。二元分类的标准评估指标，包括精度、召回率和 F1 分数，未能考虑时间序列数据的顺序属性，使得它们不足以评估上下文和集体异常 [10, 4]。因此，我们使用这些指标的调整版本，这些指标已成为时间序列异常检测中广泛使用的评估指标 [32, 2]。这里采用点调整方法，如果单个时间戳被检测为异常，则认为包含该时间戳的异常段中的每个时间点被正确检测。

4.2 主要结果

在主要实验中，我们通过与 12 个模型进行比较来评估 MEMTO 在多元时间序列异常检测任务上的性能。传统的机器学习基线是 LOF [5]、OC-SVM [28] 和 Isolation Forest [20]。我们还与最近的几种深度模型进行了比较，包括密度估计模型（MPPCAD [41] 和 DAGMM [45]）、基于聚类的模型（Deep-SVDD [26] 和 THOC [29]）和基于重建的模型（LSTM-VAE [23]、BeatGAN [42]、OmniAnomaly [31]、InterFusion [19] 和 Anomaly Transformer [40]）。

表 1 显示了五个多元时间序列异常检测任务的评估结果。总体而言，使用 MEMTO 和 Anomaly Transformer 等 Transformer 的模型始终表现出高性能，所有数据集上的 F1 分数均超过 90%。然而，与之前最先进的模型 Anomaly Transformer 相比，MEMTO 大幅提高了基准测试的平均 F1 分数，从 93.62% 提高到 95.74%。MEMTO 通过调整数据中存在的多种正常模式并使用数据驱动的方法创建这些模式的原型，有效检测复杂时间序列数据中的异常，从而实现新的最先进的结果。

表 1

表 1：五个真实数据集的精度 (P)、召回率 (R)、F1 分数 (F1) 结果（以 % 表示）。“A.T.” 和 “avg” 表示异常 Transformer 和平均值。我们重现了 MEMTO 和 Anomaly Transformer 结果，同时采用 [40] 中报告的性能作为其他基线。

4.3 消融研究

在本节中，我们通过对三个关键组件（异常标准、内存模块和训练范式）的一系列消融研究，全面分析所提出的模型 MEMTO。附录 C 显示了消融研究的更详细分析。

异常标准。与其他时间序列异常检测模型不同，MEMTO 考虑输入和潜在空间来得出异常分数。表 2 展示了使用不同异常检测标准的 MEMTO 性能。仅使用 ISD 或 LSD 这两个异常标准之一，平均 F1 分数较低，分别为 69.23% 和 60.16%。特别是，它们在 SwaT 上表现出极低的性能，表明跨数据集的性能差异很大。相比之下，我们提出的方法同时使用 ISD 和 LSD，在所有数据集上始终显示出最高性能，并且与其他方法相比方差相对较低。

表 2

表 2：ISD 和 LSD 的有效性。

内存模块。在这项研究中，我们评估了新型门控内存模块在异常检测任务中的能力。表 3 显示，移除门控内存模块会导致平均 F1 分数显着下降 32.56p%，特别是在 SWaT 上，F1 分数显着下降到不到三分之一。为了进一步验证我们方法的有效性，我们还通过在使用相同实验设置的情况下替换 MEMTO 中的内存模块，将其与两种现有的内存模块机制（MemAE [8] 和 MNAD [24]）进行比较。我们的研究结果表明，简单地添加显式内存更新过程并不一定会提高性能，MemAE 和 MNAD 之间的可比性能证明了这一点。然而，当我们应用我们提出的将更新门集成到内存更新过程中的内存模块时，可以观察到显着的性能改进。我们的方法证明了其在不同数据集领域的异常检测任务中的优越性。

表 3

表 3：记忆模块和训练范例的消融结果。‘MM’ 表示内存模块。

训练范式。为了增强训练过程中记忆项更新的稳定性，我们使用K均值聚类来初始化记忆项的值，而不是随机初始化。我们的实验结果提供了强有力的证据，支持 MEMTO 两阶段训练范式的有效性。表 3 表明，与应用时相比，不应用 K 均值聚类会导致 MEMTO 的平均 F1 分数降低 8.4p%。对于 MemAE 和 MNAD 中的此类情况，分数分别下降了 14.7p% 和 15.4p%，这表明我们提出的训练范例可以普遍适用于基于内存模块的模型。

4.4 讨论与分析

LSD 的统计分析。我们进一步探索门控内存模块捕获数据中典型正常模式的卓越能力。图 2 展示了描述正常和异常样本在三个内存模块（我们的内存模块、MemAE 和 MNAD）中的 LSD 值分布的框图。我们计算正常和异常样本的平均 LSD 值如下： $\mathbb{E}_{q^+\in Normal}LSD\left(q^+,\ m\right)$ 和 $\mathbb{E}_{q^+\in Abnormal}LSD\left(q^-,\ m\right)$ ，其中 $m$ 表示固定记忆项。附录 D 中列出了每种类型内存模块的平均 LSD 值。

图 2

图 2：正常和异常样本的 LSD 值分布。

我们计算测试数据集中正常样本和异常样本的平均 LSD 值之间的比率。表 4 显示了使用三种不同内存模块时每个数据集的比率值。我们提出的方法在大多数数据集中始终显示出比其他方法更小的比率值。这表明门控内存模块中存储的项目与异常样本的查询的距离比正常样本的距离更远，并且它们之间的差距比其他类型的内存模块中的差距更大。它支持我们的断言，即门控内存模块比其他比较方法更好地编码数据中的正常模式。

表 4

表 4：LSD的统计分析结果。表中数值计算公式如下：\mathbb{E}_{q^+\in Normal}LSD\left(q^+,\ m\right)\ /\ \mathbb{E}_{q^+\in Abnormal}LSD\left(q^-,\ m\right)，其中q^+ 和q^- 分别表示正常样本和异常样本的查询。

异常分数。我们对从所有数据集中随机提取的长度为 150 的时间段进行实验，以证明基于二维偏差的检测标准的有效性。本实验中使用的基线包括利用 LSD 或 ISD 作为检测标准的 MEMTO 以及之前最先进的模型 Anomaly Transformer。图 3 说明了与分段内每个时间戳相关的异常分数和真实标签。结果表明，与基线相比，基于二维偏差的标准可以稳健地检测异常。与使用基于关联的检测标准的 Anomaly Transformer 相比，基于二维偏差的标准显示出精确的检测并减少了误报。此外，如果删除潜在或输入空间方面，MEMTO 会表现出不稳定的性能。虽然仅使用 LSD 作为检测标准的 MEMTO 在异常分数中表现出类似的模式，但异常时间点的分数未能超过阈值。这表明考虑这两个因素对于稳健性能至关重要，因为它根据异常分数放大了正常时间点和异常时间点之间的差距。

图 3

图 3：SMD 异常分数的可视化。每个图表在 y 轴上显示异常分数，在 x 轴上显示时间。黄色阴影区域表示异常标签的真实情况，蓝线表示模型预测的异常分数，红色虚线表示阈值。不同数据集的附加图包含在附录 D 中。

计算效率。我们分别测量使用和不使用门控内存模块和两阶段训练范例的训练时间。结果如表 5 所示。当在没有门控内存模块的情况下训练 MEMTO 时，参数数量和训练时间都会减少。然而，这导致性能下降 26.27%p，如表 3 所示。此外，与不使用两阶段训练范例相比，两阶段训练范例将训练持续时间增加了约 2.45 倍，但推理时间不受影响。值得注意的是，两阶段训练范例将性能提高了 10.4%p，即使在延长训练持续时间的情况下，也证明了其采用的合理性。

我们进一步比较了 MEMTO 和之前最先进的模型 Anomaly Transformer 之间的计算效率。Anomaly Transformer 计算并保留每个编码器层的序列关联和先验关联，然后对各层之间的关联差异进行平均。在推理期间执行此过程对计算要求很高，而 MEMTO 仅需要每个查询和一些内存项之间的点积运算，更简单，并且推理时间更短。如表 5 所示，虽然由于两阶段训练范例，MEMTO 需要 Anomaly Transformer 的两倍以上的训练时间，但值得注意的是，在考虑实际应用的关键推理时间时，MEMTO 快了 1.17 秒。

表 4

表 5：每个阶段测量的时间（以秒为单位）。实验是在 SwaT 数据集上完成的。

此外，考虑到计算成本随着 MEMTO 门控内存模块内内存项数量的增加而增加，我们进行实验来分析内存项的最佳数量。图 4 说明了 MEMTO 的性能与使用的内存项数量之间的关系。结果表明，MEMTO 的性能对于内存项的数量来说是稳健的，因为数据集之间的性能差异很小。因此，在权衡性能和计算复杂度后，我们指定十个内存项作为默认值。我们的研究强调了使用有限数量的记忆项来提取时间序列数据中正常模式的原型特征的有效性。与计算机视觉可能需要数千个内存项 [8] 不同，我们证明时间序列域中的任务只需要十个内存项。

图 4

图 4：门控内存模块中不同数量内存项的性能。

5 结论

我们介绍 MEMTO，一种基于无监督重建的多元时间序列异常检测模型。MEMTO 中的门控内存模块自适应地捕获响应输入数据的正常模式，并且可以使用两阶段训练范例对其进行稳健训练。我们提出的异常准则综合考虑了二维空间，提高了 MEMTO 的性能。对现实世界多元时间序列基准的大量实验验证了我们提出的模型与现有竞争模型相比实现了最先进的性能。

局限性。虽然我们在门控内存模块和基于二维偏差的标准中的两个更新阶段提高了性能，但其功效的彻底理论证明仍有待建立。此外，我们承认我们忽略了对存储在内存项中的典型正常模式进行目视检查的局限性。未来，我们将进一步探讨这些问题作为我们研究的一部分。

更广泛的影响 MEMTO。专为检测多元时间序列数据中的异常而量身定制，可应用于各种复杂的网络物理系统，例如智能工厂、电网、数据中心和车辆。但是，我们强烈反对将其用于与金融犯罪相关的活动或可能产生负面社会后果的其他应用。

参考文献

[1] Ahmed Abdulaal, Zhuanghua Liu, and Tomer Lancewicki. Practical approach to asynchronous multivariate time series anomaly detection and localization. In Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining, pages 2485–2494, 2021.
[2] Julien Audibert, Pietro Michiardi, Frédéric Guyard, Sébastien Marti, and Maria A Zuluaga. Usad: Unsupervised anomaly detection on multivariate time series. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining, pages 3395–3404, 2020.
[3] Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio. Neural machine translation by jointly learning to align and translate. arXiv preprint arXiv:1409.0473, 2014.
[4] Ane Blázquez-García, Angel Conde, Usue Mori, and Jose A Lozano. A review on outlier/anomaly detection in time series data. ACM Computing Surveys (CSUR), 54(3):1–33, 2021.
[5] Markus M Breunig, Hans-Peter Kriegel, Raymond T Ng, and Jörg Sander. Lof: identifying density-based local outliers. In Proceedings of the 2000 ACM SIGMOD international conference on Management of data, pages 93–104, 2000.
[6] Qi Cai, Yingwei Pan, Ting Yao, Chenggang Yan, and Tao Mei. Memory matching networks for one-shot image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 4080–4088, 2018.
[7] Yongliang Cheng, Yan Xu, Hong Zhong, and Yi Liu. Hs-tcn: A semi-supervised hierarchical stacking temporal convolutional network for anomaly detection in iot. In 2019 IEEE 38th International Performance Computing and Communications Conference (IPCCC), pages 1–7. IEEE, 2019.
[8] Dong Gong, Lingqiao Liu, Vuong Le, Budhaditya Saha, Moussa Reda Mansour, Svetha Venkatesh, and Anton van den Hengel. Memorizing normality to detect anomaly: Memoryaugmented deep autoencoder for unsupervised anomaly detection. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 1705–1714, 2019.
[9] Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial networks. Communications of the ACM, 63(11):139–144, 2020.
[10] Mononito Goswami, Cristian Challu, Laurent Callot, Lenon Minorics, and Andrey Kan. Unsupervised model selection for time-series anomaly detection. arXiv preprint arXiv:2210.01078, 2022.
[11] Alex Graves, Greg Wayne, and Ivo Danihelka. Neural turing machines. arXiv preprint arXiv:1410.5401, 2014.
[12] Tengda Han, Weidi Xie, and Andrew Zisserman. Memory-augmented dense predictive coding for video representation learning. In Computer Vision–ECCV 2020: 16th European Conference, Glasgow, UK, August 23–28, 2020, Proceedings, Part III 16, pages 312–329. Springer, 2020.
[13] Kyle Hundman, Valentino Constantinou, Christopher Laporte, Ian Colwell, and Tom Soderstrom. Detecting spacecraft anomalies using lstms and nonparametric dynamic thresholding. In Proceedings of the 24th ACM SIGKDD international conference on knowledge discovery & data mining, pages 387–395, 2018.
[14] Łukasz Kaiser, Ofir Nachum, Aurko Roy, and Samy Bengio. Learning to remember rare events. arXiv preprint arXiv:1703.03129, 2017.
[15] Diederik P Kingma and Jimmy Ba. Adam: A method for stochastic optimization. arXiv preprint arXiv:1412.6980, 2014.
[16] Ankit Kumar, Ozan Irsoy, Peter Ondruska, Mohit Iyyer, James Bradbury, Ishaan Gulrajani, Victor Zhong, Romain Paulus, and Richard Socher. Ask me anything: Dynamic memory networks for natural language processing. In International conference on machine learning, pages 1378–1387. PMLR, 2016.
[17] Dan Li, Dacheng Chen, Baihong Jin, Lei Shi, Jonathan Goh, and See-Kiong Ng. Mad-gan: Multivariate anomaly detection for time series data with generative adversarial networks. In Artificial Neural Networks and Machine Learning–ICANN 2019: Text and Time Series: 28th International Conference on Artificial Neural Networks, Munich, Germany, September 17–19, 2019, Proceedings, Part IV, pages 703–716. Springer, 2019.
[18] Dan Li, Dacheng Chen, Baihong Jin, Lei Shi, Jonathan Goh, and See-Kiong Ng. Mad-gan: Multivariate anomaly detection for time series data with generative adversarial networks. In Artificial Neural Networks and Machine Learning–ICANN 2019: Text and Time Series: 28th International Conference on Artificial Neural Networks, Munich, Germany, September 17–19, 2019, Proceedings, Part IV, pages 703–716. Springer, 2019.
[19] Zhihan Li, Youjian Zhao, Jiaqi Han, Ya Su, Rui Jiao, Xidao Wen, and Dan Pei. Multivariate time series anomaly detection and interpretation using hierarchical inter-metric and temporal embedding. In Proceedings of the 27th ACM SIGKDD conference on knowledge discovery & data mining, pages 3220–3230, 2021.
[20] Fei Tony Liu, Kai Ming Ting, and Zhi-Hua Zhou. Isolation forest. In 2008 eighth ieee international conference on data mining, pages 413–422. IEEE, 2008.
[21] Zhian Liu, Yongwei Nie, Chengjiang Long, Qing Zhang, and Guiqing Li. A hybrid video anomaly detection framework via memory-augmented flow reconstruction and flow-guided frame prediction. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 13588–13597, 2021.
[22] Pankaj Malhotra, Anusha Ramakrishnan, Gaurangi Anand, Lovekesh Vig, Puneet Agarwal, and Gautam Shroff. Lstm-based encoder-decoder for multi-sensor anomaly detection. arXiv preprint arXiv:1607.00148, 2016.
[23] Daehyung Park, Yuuna Hoshi, and Charles C Kemp. A multimodal anomaly detector for robotassisted feeding using an lstm-based variational autoencoder. IEEE Robotics and Automation Letters, 3(3):1544–1551, 2018.
[24] Hyunjong Park, Jongyoun Noh, and Bumsub Ham. Learning memory-guided normality for anomaly detection. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 14372–14381, 2020.
[25] Lukas Ruff, Robert Vandermeulen, Nico Goernitz, Lucas Deecke, Shoaib Ahmed Siddiqui, Alexander Binder, Emmanuel Müller, and Marius Kloft. Deep one-class classification. In International conference on machine learning, pages 4393–4402. PMLR, 2018.
[26] Lukas Ruff, Robert Vandermeulen, Nico Goernitz, Lucas Deecke, Shoaib Ahmed Siddiqui, Alexander Binder, Emmanuel Müller, and Marius Kloft. Deep one-class classification. In International conference on machine learning, pages 4393–4402. PMLR, 2018.
[27] Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, and Timothy Lillicrap. Meta-learning with memory-augmented neural networks. In International conference on machine learning, pages 1842–1850. PMLR, 2016.
[28] Bernhard Schölkopf, John C Platt, John Shawe-Taylor, Alex J Smola, and Robert C Williamson. Estimating the support of a high-dimensional distribution. Neural computation, 13(7):1443– 1471, 2001.
[29] Lifeng Shen, Zhuocong Li, and James Kwok. Timeseries anomaly detection using temporal hierarchical one-class network. Advances in Neural Information Processing Systems, 33: 13016–13026, 2020.
[30] Lifeng Shen, Zhongzhong Yu, Qianli Ma, and James T Kwok. Time series anomaly detection with multiresolution ensemble decoding. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 35, pages 9567–9575, 2021.
[31] Ya Su, Youjian Zhao, Chenhao Niu, Rong Liu, Wei Sun, and Dan Pei. Robust anomaly detection for multivariate time series through stochastic recurrent neural network. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pages 2828–2837, 2019.
[32] Ya Su, Youjian Zhao, Chenhao Niu, Rong Liu, Wei Sun, and Dan Pei. Robust anomaly detection for multivariate time series through stochastic recurrent neural network. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pages 2828–2837, 2019.
[33] Ya Su, Youjian Zhao, Chenhao Niu, Rong Liu, Wei Sun, and Dan Pei. Robust anomaly detection for multivariate time series through stochastic recurrent neural network. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining, pages 2828–2837, 2019.
[34] Sainbayar Sukhbaatar, Jason Weston, Rob Fergus, et al End-to-end memory networks. Advances in neural information processing systems, 28, 2015.
[35] David MJ Tax and Robert PW Duin. Support vector data description. Machine learning, 54: 45–66, 2004.
[36] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural information processing systems, 30, 2017.
[37] Xixuan Wang, Dechang Pi, Xiangyan Zhang, Hao Liu, and Chang Guo. Variational transformerbased anomaly detection approach for multivariate time series. Measurement, 191:110791, 2022.
[38] Jason Weston, Sumit Chopra, and Antoine Bordes. Memory networks. arXiv preprint arXiv:1410.3916, 2014.
[39] Caiming Xiong, Stephen Merity, and Richard Socher. Dynamic memory networks for visual and textual question answering. In International conference on machine learning, pages 2397–2406. PMLR, 2016.
[40] Jiehui Xu, Haixu Wu, Jianmin Wang, and Mingsheng Long. Anomaly transformer: Time series anomaly detection with association discrepancy. arXiv preprint arXiv:2110.02642, 2021.
[41] Takehisa Yairi, Naoya Takeishi, Tetsuo Oda, Yuta Nakajima, Naoki Nishimura, and Noboru Takata. A data-driven health monitoring method for satellite housekeeping data based on probabilistic clustering and dimensionality reduction. IEEE Transactions on Aerospace and Electronic Systems, 53(3):1384–1401, 2017.
[42] Bin Zhou, Shenghua Liu, Bryan Hooi, Xueqi Cheng, and Jing Ye. Beatgan: Anomalous rhythm detection using adversarially generated time series. In IJCAI, volume 2019, pages 4433–4439, 2019.
[43] Haoyi Zhou, Shanghang Zhang, Jieqi Peng, Shuai Zhang, Jianxin Li, Hui Xiong, and Wancai Zhang. Informer: Beyond efficient transformer for long sequence time-series forecasting. In Proceedings of the AAAI conference on artificial intelligence, volume 35, pages 11106–11115, 2021.
[44] Minfeng Zhu, Pingbo Pan, Wei Chen, and Yi Yang. Dm-gan: Dynamic memory generative adversarial networks for text-to-image synthesis. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition, pages 5802–5810, 2019.
[45] Bo Zong, Qi Song, Martin Renqiang Min, Wei Cheng, Cristian Lumezanu, Daeki Cho, and Haifeng Chen. Deep autoencoding gaussian mixture model for unsupervised anomaly detection. In International conference on learning representations, 2018.

附录

A 训练详情

我们的 MEMTO 模型使用 10 个内存项，对应于 K 均值聚类中的聚类数量。为了确定异常，我们将阈值设置为训练数据和验证数据的异常分数组合结果的前 p%，每个数据集的指定 p 值如表 6 所示，[40] 之后。我们将目标函数中的 $λ$ 设置为 0.01，使用学习率为 5e-5 的 Adam 优化器 [15]，并在训练期间针对验证损失采用早期停止，耐心等待 10 个周期。我们的实验是使用 Pytorch 框架在四个 NVIDIA GTX 1080 Ti 12GB GPU 上进行的。此外，在我们的实验执行过程中，我们部分引用了[40]的代码。

A.1 超参数设置

MEMTO 的重要超参数是通过网格搜索确定的，而其他超参数则根据经验观察设置为常用的默认值。我们执行网格搜索以确定以下范围内的每个超参数的值：

$\lambda\in{1e+0,\ 5e-1,\ 1e-1,\ 5e-2,\ 1e-2,\ 5e-3,\ 1e-3}$
$lr\in{1e-4,\ 3e-4,\ 5e-4,\ 1e-5,\ 3e-5,\ 5e-5}$
$\tau\in{0.1,\ 0.3,\ 0.5,\ 0.7,\ 0.9}$
$M\in{5,\ 10,\ 15,\ 20,\ 25,\ 30,\ 35,\ 40,\ 45,\ 50,\ 55,\ 60,\ 65,\ 70,\ 75,\ 80,\ 85,\ 90,\ 95,\ 100}$

其中 $l r$ 、 $\tau$ 和 $M$ 分别表示学习率、softmax 函数中的温度和簇数。由于我们将簇的质心设置为记忆项，因此记忆项的数量和簇的数量是相同的。我们将最佳超参数设置如下： $\lambda$ 为 1e-2， $l r$ 为 5e-5， $\tau$ 为 0.1， $M$ 为 10。本文中的所有实验均使用相同的超参数进行，无论数据集如何。

A.2 数据集

表 6 显示了实验中使用的数据集的统计细节。我们通过 https://itrust.sutd.edu.sg/itrust-labs_datasets/ 提交请求获得了 SWaT。

表 6

表 6：五个基准的详细信息。训练、验证和测试集中的样本数量分别在标记为 “训练”、“有效” 和 “测试” 的列中表示。“p%” 列表示实验中使用的异常率。“Dim” 列显示每个数据集的数据维度大小。

B MEMTO 算法

算法 2

算法 2 为我们的模型提供了一个整体机制。它演示了当单个输入子系列 $X^s$ 被馈送到 MEMTO 时前向过程的矩阵运算版本。

C 附加实验

表 7

表 7：异常标准和目标函数的消融结果（F1 分数）。L_{rec} 和 L_{entr} 分别表示重建损失和熵损失。

表 8

表 8：我们分别报告了 A.T（异常 Transformer）和 MEMTO 10 次运行的平均值和标准差。我们进行 t 检验（p<0.05）以表明统计显着性。

C.1 目标函数和异常准则

在本实验中，我们研究了损失项（特别是重建损失 $L_{rec}$ 和熵损失 $L_{entr}$ ）对我们提出的框架 MEMTO 性能的影响。我们从目标函数中一一删除这两项中的一项，并评估最终的性能。表 7 展示了在目标函数中合并 $L_{rec}$ 和 $L_{entr}$ 项的重要性。将基于二维偏差的标准应用于仅使用 $L_{rec}$ 和 $L_{entr}$ 作为损失函数的 MEMTO 变体，在平均 F1 分数方面与我们的相比显示出具有竞争力的性能。这证明了 MEMTO 对损失项的鲁棒性。此外，当仅使用 ISD 或 LSD 作为异常标准时，这两种情况都显示出显着的性能下降，强调了结合 ISD 和 LSD 对于实现最佳性能的重要性。

C.2 统计显着性检验

我们还进行统计测试，将我们的结果与最新的最先进模型 Anomaly Transformer 进行比较。我们进行了 $t$ 检验，以证明 MEMTO 和 Anomaly Transformer 之间存在显着的性能差异。表 8 中的结果显示所有数据集的 $p$ 值均小于 0.05，证实了两个模型之间存在显着的性能差异。

C.3 解码器层数

图 5 提供了不同解码器层数下MEMTO的性能。如图 5 所示，太浅的解码器（例如，具有单层的解码器）性能较差，因为它缺乏足够的能力来准确地重建输入数据。另一方面，如果解码器太大（例如，具有十层的解码器），则无论编码器的编码能力如何，它都可能变得过度表达并且甚至重建异常。因此，它可能会导致过度泛化问题，最终会因过于准确地重建异常而降低异常检测的性能。此外，具有更多参数的更大解码器层会增加计算和内存成本。我们根据经验发现，考虑到性能和资源成本之间的平衡，具有两层的解码器最适合我们论文中提出的异常检测任务。

图 5

图 5：F1 分数和参数数量，根据解码器层数。右侧 y 轴代表蓝线图的值（以百万为单位），而左侧 y 轴代表条形图的值。

D 供讨论的其他细节

D.1 LSD值

表 9 显示了使用不同内存模块机制时跨数据集各个域的正常和异常样本的平均 LSD 值。在大多数数据集中，我们提出的门控内存模块始终表现出正常样本的平均 LSD 值低于异常样本的平均 LSD 值。此外，这些值之间的相对差异比其他内存模块机制更显着。这些结果证明了我们的内存模块机制在捕获数据中正常模式的原型特征方面的有效性。

表 9