【无监督时间序列异常检测】2022-TKDE-具有自监督学习的自适应记忆网络用于无监督异常检测

念啊啊啊啊丶

已于 2024-09-24 21:35:06 修改

阅读量10

点赞数

分类专栏：无监督时间序列异常检测文章标签：深度学习人工智能机器学习神经网络

于 2023-09-11 18:45:40 首次发布

本文链接：https://blog.csdn.net/weixin_42475026/article/details/132802065

版权

无监督时间序列异常检测专栏收录该内容

3 篇文章 0 订阅

订阅专栏

具有自监督学习的自适应记忆网络用于无监督异常检测

无监督异常检测旨在建立模型，仅通过对正常数据进行训练来有效检测未见的异常。尽管以前的基于重建的方法取得了丰硕的进展，但由于两个关键挑战，它们的泛化能力受到限制。首先，训练数据集仅包含正常模式，这限制了模型的泛化能力。其次，现有模型学习的特征表示通常缺乏代表性，这阻碍了保持正常模式多样性的能力。在本文中，我们提出了一种称为具有自监督学习的自适应记忆网络（AMSL）的新方法来解决这些挑战并增强无监督异常检测的泛化能力。基于卷积自动编码器结构，AMSL 结合了自监督学习模块来学习一般正常模式和自适应记忆融合模块来学习丰富的特征表示。对四个公共多元时间序列数据集的实验表明，与其他最先进的方法相比，AMSL 显着提高了性能。具体来说，在拥有 9 亿样本的最大 CAP 睡眠阶段检测数据集上，AMSL 在准确度和 F1 分数上均优于第二好的基线 4% 以上。除了增强的泛化能力之外，AMSL 对输入噪声也更加鲁棒。
索引术语——无监督异常检测、时间序列、自监督学习、记忆网络。

1. 引言

随着物联网（IoT）设备在许多应用（例如医疗保健、人类活动识别和工业控制系统）中的普及，人们对异常检测的兴趣日益浓厚 [1][2][3]。然而，按照当前方法获取训练机器学习模型所需的大量标记异常数据的成本过高。例如，睡眠呼吸暂停数据的收集 [4] 非常耗时且受环境限制，而正常状态的数据则更容易获得。对于这种场景，无监督异常检测是一种有前途的范例，旨在通过仅从正常样本进行训练来检测异常，这是我们本文的主要重点，特别是对于多元时间序列。

无监督异常检测的关键挑战是从正常训练数据中学习通用模式，以便能够在未见过的异常上取得良好的性能。多年来，已经出现了一系列关于这个主题的作品。自动编码器（AE）是一种强大的无监督学习技术，已广泛用于无监督异常检测 [5][6][7]。AE 通常通过最小化正常数据的重建误差来训练，然后使用这些误差作为异常的指标或阈值。基于 AE 结构，LSTMAE [8]、卷积 AE（CAE）[6] 和 ConvLSTM-AE [9] 已成为有前景的异常检测方法。

尽管取得了进展，但由于两个关键挑战，无监督异常检测方法的泛化能力仍然受到限制。第一个挑战是有限的正常数据。与未见过的测试数据相比，正常的训练数据相当有限，使得模型容易过度拟合。如图 1 所示，当正常样本（图 1(a)）和异常样本（图 1(b)）相似时，现有方法可能会过度拟合异常。第二个挑战是有限的特征表示。对于复杂的时间序列数据，现有模型学习的特征表示缺乏保持正常模式多样性所需的代表性。如图 1 所示，当测试数据与正常样本变得多样化时（图 1(c)），现有方法无法捕获多样化模式。因此，由于正常训练数据和特征表示都有限，现有模型在应用于看不见的正常和异常数据时泛化性能较差。

图 1

图 1：AMSL 示意图。即使输入相似（(a) 和 (b)），现有方法也可能对异常情况过度拟合；另一方面，当输入不同时（(a) 和 (c)），我们的方法仍然准确，而现有方法可能会失败。Axis 表示数据集上的三维信号。

在本文中，我们提出了一种新颖的具有自监督学习的自适应记忆网络（AMSL），通过解决上述两个挑战来提高无监督异常检测的泛化能力。首先，为了应对有限的正常训练数据，AMSL 引入了自监督学习模块，从正常数据中学习一般模式。其次，为了应对有限的特征表示，AMSL 引入了自适应记忆融合网络，分别通过全局和局部记忆模块学习共同和特定特征。然后，AMSL 采用自适应融合模块将全局和局部表示融合为最终表示，用于重建。基于卷积自动编码器框架，AMSL 可以轻松地以端到端的方式进行训练。如图 1 所示，虽然其他方法在面对这两个挑战时失败了，但我们的 AMSL 可以正确执行异常检测。

这项工作做出了以下三个贡献：

我们建议AMSL分别通过采用自监督学习和记忆网络来解决有限的正常数据和特征表示挑战。
我们建议学习全局和局部记忆以增强表示能力，并进一步提出自适应记忆融合模块来融合全局和局部记忆以获得最终表示。
在四个公共数据集上的广泛实验证明了 AMSL 的有效性。特别是在拥有 9 亿多个实例的最大 CAP 数据集 [4] 上，AMSL 在准确性和 F1 分数方面均显着优于最佳比较方法 4% 以上。

此外，AMSL 还具有很强的抗噪声能力，并保持时间和内存效率。

2. 相关工作

无监督异常检测已经研究了几十年。传统方法包括重建方法（例如，PCA、Kernel PCA [10][11]）、聚类方法（例如，GMM、K-means [12][13]）和一类学习方法（例如，OCSVM），SVDD [14][15]）。深度学习方法也很流行。它们可以分为基于重建的方法和基于预测的方法。

基于重建的方法侧重于减少预期的重建误差。例如，自动编码器（AE）[5] 通常通过学习重建给定输入来进行异常检测。由于模型仅在正常数据上进行训练，因此每当它无法以与正常数据重建相同的质量重建给定输入时，该实例就会被视为异常。LSTM 编码器-解码器模型 [8] 被提出来通过 LSTM 网络学习时间序列的时间表示，并使用重建误差来检测异常。尽管 LSTM 很有效，但它并没有考虑空间相关性。卷积自动编码器（CAE）[6][7] 是视频异常检测的重要方法。它能够捕获 2D 图像结构，因为它的权重在输入图像中的所有位置之间共享。此外，由于卷积 LSTM（ConvLSTM）可以通过使用卷积层而不是全连接层来建模时空相关性，因此后来的工作 [9][16] 将 ConvLSTM 层添加到自动编码器中，从而更有效地对正常数据的外观变化进行编码。其他如变分自动编码器（VAE）[17][18]、去噪自动编码器（DAE）[19]、深度置信网络（DBN）[20]、复制神经网络 [21] 和鲁棒深度自动编码器（RDA）[22] 也报告了有希望的表现。

基于预测的方法旨在预测一个或多个连续值。在异常检测中，研究人员 [23][24][25] 提出基于 RNN 的预测模型来预测下一时间段的值，并最小化预测值与未来值之间的均方误差作为识别异常的标准。也有人尝试提出一种预测模型，使用 CNN 和 RNN，即 LSTNet [26]，提取短期局部依赖模式和长期模式，用于多元时间序列分析以进行异常检测。基于 GAN 的方法 [27] 采用 U-Net 作为生成器来预测视频中的下一帧，并利用对抗性训练来区分预测结果与真实情况相比是否虚假（即异常事件）。然而，这些方法缺乏可靠的机制来学习细粒度的正常数据的表示。

特征表示学习是深度学习和机器学习的重要方面之一，输入数据的良好表示对于方法的泛化能力、可解释性和鲁棒性至关重要。最近的一些工作 [28][29] 使用图像上下文和时空关系来很好地捕获视频对象检测的特征相关性。自监督学习（SSL）[30] 是一种无监督学习范式，它使用数据本身来生成监督来学习良好的表示。例如，在大多数图像未标记的图像分类问题中，我们仍然可以将其旋转不同的角度（例如 0°、90°、180°、270°），然后使用这些角度作为它们的标签。这样，所有的样品都带有标签了。通过学习这个多类分类问题（辅助任务），模型可以从这些图像中学习一般特征，这些特征可用于稍后的分类（主要任务）。计算机视觉 [31][32]、自然语言处理 [33] 和语音识别任务 [34] 都有自我监督技术。在异常检测中，[35][36] 使用自监督视觉表示学习来学习分布（正常）样本的特征。

普通记忆网络用于回答问题 [37]。一般来说，基于 RNN 或 LSTM 的模型通过本地记忆单元捕获序列内的长期结构。由于这些模型中的内存随着时间的推移不稳定，因此提出了使用具有共享读写功能的全局内存的内存网络。考虑到记忆可以稳定地记录信息，一些工作采用了记忆网络，如一次性学习 [38][39]、神经机器翻译 [40]、异常检测 [41][42][43]。在异常检测中，内存模块的目的是记录正常数据与内存中的项目相比的各种模式，从而区分正常数据和异常数据。

3. 提议的方法

3.1. 问题陈述

定义 1（多元时间序列）。多元时间序列可以表示为 $\boldsymbol{X}=\left(\boldsymbol{x}_1, \boldsymbol{x}_2, · · ·, \boldsymbol{x}_N\right)\in\mathbb{R}^{N\times V}$ ，其中 $\boldsymbol{x}_i\in\mathbb{R}^V$ 是长度为 $V$ 的信号， $N$ 是信号总数。 $y\in\mathcal{Y}$ 表示相应的标签，其中 $\mathcal{Y}=\left\{1,· · ·,K\right\}$ 表示具有 $K$ 类的正常数据。

定义 2（异常）。如果样本 $\left(\boldsymbol{x}_a,\ y_a\right)$ 的标签 $y_a$ 不属于任何预定义的类，即 $y_a\notin\mathcal{Y}$ ，则该样本被称为异常。

在本文中，我们处理最具挑战性的无监督异常检测问题，其中在训练期间只有未标记的正常样本可用。这是一个更现实的设置，因为大规模收集异常样本通常是不切实际的。

3.2. 概述

我们采用卷积自动编码器（CAE）作为基础网络，该网络广泛应用于现有的异常检测文献 [5][6][7] 中。自动编码器（AE）是一种无监督神经网络，结合了分别由 $\theta_e$ 和 $\theta_d$ 参数化的编码器 $f_e$ 和解码器 $f_d$ 。编码器将高维输入 $\boldsymbol{x}\in\mathbb{R}^V$ 映射到潜在表示 $\boldsymbol{z}\in\mathbb{R}^F$ ，其中 $F\ll V$ 。然后，解码器 $f_d$ 通过将 $z$ 映射回输入空间来将原始输入重建为 $\boldsymbol{x}^\prime$ 。潜在表示 $\boldsymbol{z}$ 和重构输入 $\boldsymbol{x}^\prime$ 可以分别计算为：

公式 1

重建误差使用均方误差（MSE）计算：

公式 2

其中 $\lVert\cdot\rVert_2^2$ 是 $l_2$ 范数。

在本文中，我们提出了一种新颖的具有自监督学习（AMSL）的自适应记忆网络，用于无监督异常检测。AMSL 由四个新颖的组件组成，如图 2 所示：1）自监督学习模块，2）全局记忆模块，3）局部记忆模块和，4）自适应融合模块。AMSL 的工作原理如下四个步骤。

图 2

图 2：所提出的 AMSL 的结构。它由四个部分组成：自监督学习、全局记忆、局部记忆和自适应融合。符号 “\times R” 表示 R 个副本，其中每个副本对应于一次变换。

首先，编码器将原始时间序列信号及其六个变换映射到潜在特征空间中。
然后，对于自监督学习，构建多类分类器对这些特征类型进行分类，以学习广义特征表示。
同时，这些特征也被输入到全局和局部记忆网络模块中，以学习共同特征和特定特征。
最后，自适应融合模块融合这些特征以获得用于重建的新表示。

AMSL 的详细信息将在以下部分中介绍。

3.3. 自监督学习

在本节中，我们介绍 AMSL 的自监督学习模块，该模块能够对普通数据进行广义特征表示学习。与可能以任何形式表示的大量未见异常相比，正常训练数据的数量相对有限。因此，在如此有限的正常样本上训练的异常检测模型往往会过度拟合。然而，收集所有无限训练数据的成本高昂。为了解决这个问题，我们建议使用自监督学习来提高模型的泛化能力。

假设基本数据增强前后的实例是一致的（即相同增强后正常数据和异常数据仍然可以区分）[30]，我们在原始数据上设计特征变换以进行自我监督。然后，我们训练模型识别样本的变换类型作为其辅助任务。在接下来的实验中，如图 3(a) 所示，我们可以观察到相同增强后的实例仍然可以识别正常和异常数据。具体来说，我们建议利用受 [45] 启发的六种信号变换，其描述如下：

Noise：由于现实世界中可能存在噪声传感器信号，因此向信号添加噪声可以帮助模型学习针对噪声的更鲁棒的特征。这里，实现了高斯噪声的变换。
Reverse：该变换将样本沿时间维度反转，得到时间方向相反的样本。
Permute：这种变换通过切片和交换不同的时间窗口来生成新样本，沿时间维度随机扰动信号。其目的是增强所得模型的排列不变性。
Scale：缩放通过乘以随机标量来改变时间窗口内信号的幅度。这里，我们选择 [0:5; 0:8; 1:5; 2] 作为标量值。添加缩放信号可以帮助模型学习缩放不变模式。
Negate：这种变换是一种特殊类型的缩放变换。它按 -1 缩放，从而形成输入信号的镜像。
Smooth：此变换应用 Savitzky-Golay (SG) 方法来平滑信号。Savitzky-Golay 滤波器是一种特殊类型的低通滤波器，非常适合噪声信号平滑

为了从这些变换中学习一般特征表示，模型必须使用交叉熵损失函数来区分它们的变换类型：

公式 3

其中 $R$ 表示自监督学习类的数量（在本工作中， $R = 7$ ，包括所有六个变换和原始信号）。 $y_i$ 和 $p_i$ 分别是伪标签和预测概率。Softmax 激活函数应用于交叉熵损失之前的概率。

3.4. 自适应内存融合模块

传统的 AE 受到噪声或未知训练数据的负面影响，因此它也可以一致地很好地重建异常输入 [42][46]。因此，该模型无法学习代表性特征。为了应对这一挑战，我们提出了一种自适应记忆融合模块，通过记录原型模式来增强模型区分正常数据和异常数据的能力。下面我们首先介绍一下内存网络。然后，我们详细介绍了我们的自适应记忆融合模块。

3.4.1. 内存模块

存储器模块 [41][42] 由表示编码模式的存储器表示和基于存储器项与输入 $z$ 的相似性更新存储器项的存储器更新部分组成。具体来说，存储器被实例化为矩阵 $\boldsymbol{M}\in\mathbb{R}^{C\times F}$ ，存储维度为 $F$ 的 $C$ 个向量。令行向量 $\boldsymbol{m}_i,\ \forall i\in\left[C\right]$ 表示 $M$ 的第 $i$ 行，其中 $\left[C\right]$ 表示 $1$ 到 $N$ 之间的整数。每个 $\boldsymbol{m}_i$ 表示一个内存项。

给定一个查询 $z\in\mathbb{R}^F$ （即编码），其中 $F$ 表示编码器最后一层的过滤器大小，记忆引导模块通过匹配概率 $\boldsymbol{w}\in\mathbb{R}^C$ 输出 \hat{z}，它表示记忆项 $\boldsymbol{m}_i$ 与查询 $z$ 和记忆矩阵 $M$ 之间的加权平均值如下：

公式 4

其中 $w_i$ 表示 $KaTeX parse error: Undefined control sequence: \mathbit at position 1: \̲m̲a̲t̲h̲b̲i̲t̲{w}$ 的第 $i$ 个条目。权重向量 $KaTeX parse error: Undefined control sequence: \mathbit at position 1: \̲m̲a̲t̲h̲b̲i̲t̲{w}$ 是根据查询 $z$ 和内存条目 $KaTeX parse error: Undefined control sequence: \mathbit at position 1: \̲m̲a̲t̲h̲b̲i̲t̲{m}_i$ 之间的归一化相似度计算的：

公式 5

Score 函数被实现为余弦相似度：

公式 6

在训练阶段，可以通过重建损失函数来更新记忆矩阵，从而迫使其记录正常特征。在测试阶段，记忆网络输出所有项目的组合表示，同时考虑到正常特征的多种模式。因此，可以很好地重建正常实例。使用存储器模块中检索到的正常模式重建的异常将导致更高的重建误差。

3.4.2. 自适应融合模块

我们进一步提出了一种自适应记忆融合网络，以从所有特征增强中学习常见和特定的表示。具体来说，我们提出全局记忆模块来学习所有转换中包含的通用表示，并提出本地记忆模块来学习每个转换的增强特定表示。最后，我们提出了一个自适应融合模块，将这两个级别的特征融合到将用于重建的最终表示中。动机是我们可以捕获普通数据的常见模式及其对普通数据模式有用的特定信息（即每个不同的转换），从而在细粒度级别改进普通数据的特征表示。

我们使用共享内存矩阵构建全局内存模块。通过使用编码表示作为查询，全局存储模块可以在存储矩阵中记录一般项目。通过共享内存模块，获得的输出为：

公式 7

其中 $f_g\left(\cdot\right)$ 是全局内存模块的函数。 $\left[R\right]=\left\{1,\ 2,\ \cdot\cdot\cdot,\ R\right\}$ 和 $\theta_g$ 表示一个全局内存模块的共享参数。

我们为原始数据和六种转换构建 $R$ 本地内存模块。每个记忆矩阵记录了相应的变换法线特征。这些输出由本地内存模块获得，如下所示：

公式 8

其中 $f_l\left(\cdot\right)$ 是本地存储模块的函数， $\theta_l^i$ 表示七个本地存储模块的参数。

直观地说，共同特征和特定特征在表示给定实例时并不同等重要。为了自适应地融合这些特征，我们使用前馈层，该层将特征和自由变量 $r\in\mathbb{R}$ 作为输入，通过权重 $\boldsymbol{\alpha}\in\mathbb{R}^{2R}$ 生成融合表示（局部和全局记忆有 2 个权重，其中全部有 $R$ 个变换）。请注意，我们使用 Batch Normalization 和 sigmoid 激活来对权重进行归一化，并将其值控制在 $\left(0,\ 1\right)$ 范围内。 $r$ 用于增加随机性。然后，我们得到自适应融合表示：

公式 9

其中 $\alpha_i^g,\ \alpha_i^l\in\mathbb{R}$ 分别表示公共（全局）和特定（局部）特征的权重。

解码器将 $z$ （编码输出）和 $\widetilde{z}$ （自适应融合输出）连接为输入以重建原始输入。重建损失是通过最小化解码器输出和原始输入之间的 $l_2$ 距离来定义的，如下所示：

公式 10

为了限制记忆权重 $\boldsymbol{w}$ 的稀疏性，避免记忆项的复杂组合导致异常的过度重建，我们通过最小化 $\boldsymbol{w}$ 的熵来采用稀疏损失：

公式 11

算法 1

3.5. 训练和推理

3.5.1. 训练

通过将式 (10) 中的重建损失、式 (11) 中的稀疏损失和式 (3) 中的自监督损失与权衡参数 $\lambda_1,\ \lambda_2$ 相结合，我们得到了可优化的 AMSL 的总体训练目标并以端到端的方式：

公式 12

AMSL 在多元时间序列上的训练过程如算法 1 所示。请注意，在实际实现中我们需要考虑输入的多个维度。

3.5.2. 推理

对于基于自动编码器的模型，通常假设不同类别的实例的压缩是不同的。也就是说，如果训练数据集仅包含正常实例，则异常实例的重建误差会变得更高。因此，我们可以根据推理阶段的重构误差将这些实例分为 “异常” 或 “正常”。

给定正常样本作为训练数据集 $\mathbf{X}=\left\{\boldsymbol{X}_1,\ \cdot\cdot\cdot,\ \boldsymbol{X}_H\right\}$ 。首先，我们需要构建自我监督的转换。令相应的决策阈值 $\mu$ 为该训练集上 $\rm{Err}\left(\boldsymbol{X}_i\right)$ 的第 99 个百分位数，其中 $\rm{Err}\left(\boldsymbol{X}_i\right)$ 是 $\boldsymbol{X}_i$ 的重建损失函数 LMSE 的值。在推理（或检测）过程中，判定规则是：如果 $\rm{Err}\left(\boldsymbol{X}_i\right)>\mu$ ，则将序列中的测试样本 $X_i$ 归类为 “异常”；否则，将被归类为 “正常”。这里，LMem 和 GMem 分别表示本地存储器模块和全局存储器模块。AMSL 的推理过程如算法 2 所示。

算法 2

4. 实验评价

4.1. 数据集

在实验中，我们采用以下四个数据集进行评估，如表 1 所示。

表 1

表 1：四个数据集的详细统计

DSADS [47] 由 8 名受试者进行的 19 种日常生活活动和体育活动的运动传感器数据（即加速度计、陀螺仪、磁力计）组成。为了模拟正常和异常课程，我们选择跑步、上楼梯、下楼梯、跳绳打篮球为异常班级，其余类别为正常班级。与其他活动相比，这些指定的异常活动相对强烈且罕见。在表 2(a) 中，我们描述了 DSADS 数据集上正常类和异常类的选择。我们选择这些活动作为与其他活动相比相对强烈和罕见的活动的异常类，而其余类别被定义为正常类。

PAMAP2 [48] 是一个移动数据集，包含 9 名佩戴 3 个惯性测量单元（包括加速器、陀螺仪和磁力计）的受试者进行的 18 种不同身体活动的数据。如表 2(b) 所示，我们将样本相对较小的类视为异常类，包括跑步、上楼梯、下楼梯和跳绳。其余类别在实验中用作正常类别。

WESAD [49] 是用于可穿戴压力和情感检测的公共数据集，其中包含 15 名受试者的生理和运动数据。我们使用胸戴设备的传感器模式，包括心电图、皮肤电活动、肌电图、呼吸、体温和三轴加速度。在我们的实验中，我们选择正常情绪状态（中性、娱乐）作为正常类别，选择压力状态作为异常类别。

CAP Sleep Database [4]，代表循环交替模式（CAP）数据库。它是来自 PhysioNet 存储库的临床数据集 [55]。其特征是在清醒、S1-S4 和 REM 睡眠阶段出现周期性生理信号。信号包括脑电图、眼电图、肌电图、心电图和呼吸。数据库中有 16 名健康受试者和 92 名患者。在此任务中，我们提取了 7 个有效通道（ROC-LOC、C4-P4、C4-A1、F4-C4、P4-O2、ECG1-ECG2 和 EMG1-EMG2）。为了检测睡眠呼吸暂停事件，我们选择健康受试者作为正常类别，选择睡眠呼吸障碍患者作为异常类别。

表 2

表 2：DSADS 和 PAMAP2 数据集上正常和异常类别的选择

4.2. 比较方法

我们将 AMSL 与四种流行的传统异常检测方法进行比较，这些方法可以在特征提取后应用：

KPCA [11]，它是常用于异常检测的 PCA 的非线性扩展。我们在实验中采用高斯核。
ABOD [50]，它使用 $k$ 个最近邻来近似降低复杂性。对于观察，其加权余弦分数相对于所有邻居的方差可以被视为异常分数。
OCSVM [15]，采用PCA进行降维，并采用带宽为 0:1 的高斯核。
HMM [51]，在提取特征后应用，然后根据模型生成的状态序列计算异常概率。

我们还将其与七种深度无监督方法进行了比较：

CNN-LSTM [52]，这是一种基于预测的方法，首先定义一个由 Conv2D 和 MaxPooling2D 层组成的网络，这些层排列成所需深度的堆栈。然后将结果输入 LSTM 和 FC 层作为预测。
LSTM-AE [8]，这是一种在编码器和解码器上使用单层LSTM 的基于重建的方法。
MSCRED [9]，它是一种编码器-解码器模型，以多尺度矩阵作为多元时间序列分析的输入。
ConvLSTM-COMPOSITE [16]，这是一个具有重建和预测任务的复合编码器-解码器模型。我们选择“条件”版本，通过删除预测解码器来构建名为 ConvLSTM-AE 的单一模型。
BeatGAN [53]，这是一种基于重建的方法，采用对抗性生成方法作为正则化。
MNAD [43]，这是一种基于内存模块的编码器-解码器模型，用于视频异常检测。它有两种变体：一种具有预测任务（MNAD-P），另一种具有重建任务（MNAD-R）。
GDN [54]，这是一个基于图的神经网络，用于学习传感器之间的依赖关系图以进行异常检测。
UODA [23]，这是一个基于 RNN 的异常检测网络。我们通过自定义层数和超参数来重新实现它。

我们基于几个开源存储库以及我们自己的实现重新实现了比较方法。就我们而言，有一个数据预处理阶段，其中数据被标准化，分成长度为 $V$ 的窗口并进行转换。编码器使用 $Conv2D\rightarrow Maxpool\rightarrow Conv2D\rightarrow Maxpool$ ，即大小为 4×4 的 32 和 64 个内核的 Conv1-Conv2，以及大小为 2×2 的 Maxpooling。在自适应内存融合模块中， $F = 64$ 和 $C = 800$ 是最佳选择。此外，我们使用变量 $r$ 作为自适应融合网络的初始权重 $FC\left(2R\right)\rightarrow BN\rightarrow Sigmoid\rightarrow Multiply$ 。这些权重通过方程 (9) 乘以局部和全局特征表示。由于解码器的输入是通过连接编码器的输出和存储模块的输出，因此解码器与使用 4 个 $C o n v 2 D T r an s f or m er$ 模块的编码器不对称；每层分别有 $\left\{128,\ 64,\ 32,\ 1\right\}$ 大小为 4×4 的内核。为了计算分类误差，编码器的输出也被合并到带有 $Conv2D\rightarrow Flatten\rightarrow FC\left(128\right)\rightarrow Dropout\rightarrow FC\left(R\right)$ 的分类网络中，即具有 1 个大小为 4×4 的内核的 Conv。AMSL 在 TITAN XP GPU 上使用 Keras [56] 以端到端方式进行训练。Adam 优化器用于以 32 或 64 批量大小训练约 100 个时期的模型。学习率为 0.001。我们设置超参数： $\lambda_1=1$ 和 $\lambda_2=0.0002$ ，参数敏感性分析将在后面的章节中介绍。

在实践中，很难知道真实情况，异常数据点也很少见。因此，半监督设置是常用的评估方法 [42][46][57]，训练集仅包含正常样本，与测试集没有重叠。对于每个数据集，我们将正常样本按照 5:1:4 的比例分为训练集、验证集和测试集。用于调优的模型选择标准（即超参数）是验证集上的验证误差。此外，由于大多数数据集的正常样本多于异常样本，因此准确性不足以进行评估。因此，为了进行综合评估，我们遵循现有文献 [23][46][57] 采用四个评估指标：平均精度、召回率、F1 分数和准确性。

4.3. 结果与分析

表 3 报告了这些公共数据集的总体性能结果。可以看出，所提出的 AMSL 方法在所有数据集中均取得了明显优于基线方法的性能。具体来说，与其他方法相比，AMSL 在 PAMAP2 数据集上的 F1 分数显着提高了 9.07%，在 CAP 数据集上提高了 4.90%，在 DSADS 数据集上提高了 8.77%，在 WESAD 数据集上提高了 2.35%。同样的模式也适用于精确度和召回率。特别是对于拥有超过 9 亿个样本的最大 CAP 数据集，AMSL 的 F1 分数为 4.90%，显着优于第二好的基线（OCSVM），表明了其有效性。

表 3

表 3：AMSL 与其他基线的平均精度、召回率、F1 和准确度的比较。最好和第二好的结果分别用粗体和下划线表示。我们可以看到 AMSL 明显优于其他方法。

对于 DSADS、PAMAP2 和 CAP 数据集（WESAD 比其他数据集相对更容易训练），我们发现随着数据集变大，改进往往会下降。这意味着自我监督在难以学习广义表示的小规模数据集上更有用。这与现有的机器学习结论是一致的。此外，即使 DSADS 和 PAMAP2 数据集中的样本相对较少但类别较多，我们的 AMSL 仍然大幅优于其他方法，这表明其处理有限训练数据中的多样性的能力。

传统方法由于受到特征提取方法和维数灾难的限制，在不同的数据集上表现不同。在深度学习方法中，CNN-LSTM 获得了最低的 F1 分数，这意味着仅 CNN-LSTM 不足以捕获一般模式，需要更多的正则化来提高其性能。对于基于重建的方法（LSTMAE、MSCRED 和 ConvLSTM-AE），其性能受到训练数据中噪声的限制，这可能会误导模型，难以区分正常、异常和噪声数据。MNAD 和 ConvLSTM 是针对视频数据提出的，可能不适合多元时间序列。对于 BeatGAN 来说，它在 CAP 和 WESAD 数据集上的性能较差，因为它在大规模数据集上容易出现模式崩溃和收敛问题。UODA 在 PAMAP2 和 DSADS 数据集上表现相当不错，这些数据集依赖于微调前的预训练去噪自动编码器 (DAE) 和深度循环网络 (RNN)。事实上，它的性能仍然不是最优的，因为 RNN 不具备记忆长期时间序列的能力。GDN 在 PAMAP2 和 DSADS 数据集上具有良好的性能。然而，随着数据的增加，受图结构的影响，模型的运行速度变慢，准确率也下降。对于 ConvLSTM-COMPOSITE 模型，它的性能优于大多数基线。然而，由于其结构中存在两个解码器，其效率可能会受到限制。

此外，我们还为我们提出的方法 AMSL 制作了混淆矩阵来进行误差分析。如图 4 所示，我们发现大多数数据集正常数据的误分类比例低于异常数据。DSADS 数据集上正常类和异常类的 F1 分数分别为 93.99% 和 92.48%，PAMAP2 数据集上正常类和异常类的 F1 分数分别为 98.23% 和 96.74%，正常类和异常类的 F1 分数在 WESAD 数据集上分别为 99.49% 和 99.52%，在 CAP 数据集上正常类和异常类的 F1 分数分别为 97.85% 和 97.18%。所提出的 AMSL 方法在所有数据集中都实现了显着优越的性能，F1 分数至少为 93%。

图 3

图 3：在 PAMAP2 数据集上从几个关键方面分析AMSL。(a) 自监督学习中每次数据转换的有效性。(b) 局部、全局和我们的自适应记忆融合模块之间的比较。(c) 我们的自适应记忆融合模块学习到的权重。

图 4

图 4：四个数据集的混淆矩阵。

4.4. 消融研究

4.5.1. 自我监督学习

自监督学习帮助网络学习正常数据的通用和多样化特征，从而提高模型识别未见过的正常和异常实例的泛化能力。在图 3(a) 中，我们显示了每个自监督数据转换的比较性能分析。这种评估有助于我们了解通过联合学习增强数据的模型性能是否优于学习单个数据。实验是使用 PAMAP2 数据集进行的。结果表明，除了噪声信号外，整体性能具有竞争力，因此将所有变换结合起来有利于更好的泛化。在第 4.10 节中，我们丢弃了性能不佳的转换，例如 “Noise” 和 “Scale”。我们观察到，随着变换 $R$ 的减小，AMSL 的 F1 分数和准确度也会降低。这表明使用不同的自监督数据转换有助于提高模型的泛化能力。

4.5.2. 自适应内存融合模块

在图 3(b) 中，我们展示了 CAE、GMSL、LMSL 和 AMSL 的性能。GMSL 和 LMSL 是带有 SSL 的全局内存网络和局部内存网络。实验结果表明，自适应记忆融合网络比使用单一记忆网络（即全局和局部记忆模块）取得了更好的性能。AMSL 的 F1 分数比 GMSL 高 1.86%，比 LMSL 高 3.12%。准确率和召回率也是如此。

表 5 显示了不同数据集上的更多结果。我们的方法 AMSL 始终优于 GMSL 和 LMSL。如上所述，AMSL 自动找到最佳权重 $\alpha_l$ 和 $\alpha_g$ 值。为了观察训练阶段自适应权重的变化，本实验使用 PAMAP2 数据集进行。如图 3© 所示，它发生在第 70 个 epoch 左右，此时自适应权重值趋于稳定。这里， $\alpha_1-\alpha_7$ 表示原始数据和与图 3(a) 中的变换相对应的 6 个变换的权重。

表 5

表 5：所有这些数据集的消融结果。

4.6. 对噪声数据的鲁棒性

在实际应用中，由于环境或数据采集设备的变化，多元时间序列数据的采集很容易受到噪声的污染。噪声数据给无监督异常检测方法带来了严峻的挑战。在本节中，我们评估不同方法对 PAMAP2 数据集上的噪声数据的鲁棒性。我们手动控制训练数据中的噪声数据比例。我们在随机选择的样本中注入高斯噪声（ $\mu=0,\ \sigma=0.3$ ），比率在 1% 到 30% 之间变化。我们在图 6(c) 中比较了三种方法的性能：UODA、ConvLSTM-Composite 和 AMSL。随着噪声的增加，所有方法的性能都会下降。其中，AMSL 仍然明显优于其他模型，证明了其对噪声数据的鲁棒性。精确率和召回率的结果如图 6(a) 和图 6(b) 所示。

图 5

图 5：正常类和异常类样本的可视化。每列都是我们的方法 AMSL、MNAD 和 UODA 是否正确检测到的实例。{Axis}_{1,\ 2,\ 3} 代表DSADS上的三维信号。

图 6

图 6：抗噪声能力。

4.7. 异常百分比

一般来说，异常的百分比明显低于正常范围。因此，我们在测试集上的异常百分比为 1%、5%、10%、15%、20%、25% 和 30% 时对 CAP 数据集进行实验。在图 7 中，我们显示了使用不同方法的异常类的 F1 分数。我们比较了四种方法的性能：OCSVM、ConvLSTM-COMPOSITE、MNAD-R 和 AMSL。这些方法在上述实验中对于 CAP 数据集具有良好的性能。我们可以观察到，随着异常百分比的下降，其他方法的 F1 分数显着下降，而我们的方法仍然保持稳定。这表明，即使测试集上的异常百分比非常低，我们的方法也能在异常类上实现高精度和召回率。因此，我们可以得出结论，即使面对数据集不平衡问题，我们提出的方法 AMSL 也具有良好的稳定性。

图 7

图 7：不同异常百分比的异常类别的 F1 分数。

4.8. 案例研究

我们通过可视化一些正常和异常类别来展示 MNAD、UODA 和我们的方法 AMSL 的案例研究，如图 5 所示。我们在 DSADS 数据集上选择三维信号。可以表明，我们的 AMSL 可以正确地对这些样本进行分类，而其他方法在两种情况下会失败：（1）当正常样本与大多数正常样本不相似时（即过度拟合）或（2）当异常样本与正常样本非常相似时（即，不太强大的表示）。这表明我们的 AMSL 可以有效地处理样本多样性问题。

4.9. 参数敏感性分析

我们考虑三个关键参数：1）窗口长度 $V$ ，2）存储矩阵 $M$ 的大小，3）编码器最后一层的滤波器大小 $F$ 。这些参数选自： $V\in\left\{64,\ 128,\ 236\right\}$ ， $C\in\left\{50,\ 200,\ 500,\ 800\right\}$ 和 $F\in\left\{16,\ 32,\ 64\right\}$ 。图 8 显示 AMSL 对于 PAMAP2 数据集上的不同参数选择具有鲁棒性。

我们还提供 LMSL 和 GMSL 的敏感性分析。图 9(a-b) 给出了不同窗口长度 $\left\{64,\ 128,\ 236\right\}$ 的 LMSL 和 GMSL 的结果。我们观察到窗口长度的选择对该方法至关重要，128 的窗口长度可以实现 PAMAP2 数据集的最佳性能。第二个因素是存储矩阵 $M\in\mathbb{R}^{C\times F}$ 的大小，设置为 $C\in\left\{50,\ 200,\ 500,\ 800\right\}$ 和 $F = 64$ 。请注意， $F$ 的维度等于编码器最后一层中的滤波器大小。如图 9(c-d) 所示，他们表明通过增加 $C$ 的大小，性能会提高，直到 $C$ 达到接近 800。图 9(e-f) 显示了 $F\in\left\{16,\ 32,\ 64\right\}$ 的结果。当 $F = 64$ 时，编码器最后一层的滤波器大小获得最佳性能。我们使用编码器来存储更多信息并将其用于重建潜在特征。

图 8

图 8：PAMAP2 数据集的参数敏感性分析。

图 9

图 9：PAMAP2 数据集的其他参数敏感性分析。

此外，我们调整损失函数中的超参数 $\lambda_1$ 和 $\lambda_2$ （等式 (12)）。如图 9(g-h) 所示，我们观察到 $\lambda_1=0$ 和 $\lambda_2=0.0002$ 是我们实验中的最佳选择。

3.5.2节中阈值 $\mu$ 的选择也是一个重要问题，为此我们进行了实验来比较 $\alpha$ 百分位数的不同阈值：90、95 和 99。如表 6 所示，我们发现第 99 个百分位数可以估计最佳阈值。因此，我们将异常检测阈值设置为 99%。

表 6

表 6：AMSL 阈值选择的实验评估。

4.10. 收敛性、时间和空间复杂性

图 10(a) 显示了重建损失与记忆模块的收敛以及自监督损失。综上所述，AMSL 可以更有效地应用，并且具有快速稳定的收敛性能。

图 10

图 10：AMSL 的收敛和推理时间。

我们还评估了 AMSL 和 DSADS 数据集上其他强基线的推理时间。这里，“COMP ”表示 ConvLSTM-COMPOSITE。如图 10(b) 所示，除了实现最佳性能之外，我们的方法比大多数其他方法需要更短的运行时间。

此外，根据在 DSADS 数据集上评估的表 7，AMSL 的参数数量和模型大小相对小于大多数其他方法。我们还表明，通过控制自监督数据转换 R 来减少模型参数。我们丢弃表 3(a) 中表现不佳的转换。AMSL(R=6) 丢弃性能较差的转变 “Noise”，AMSL(R=5) 丢弃 “Noise” 和 “Scale” 转换，AMSL(R=4) 丢弃 “Noise”、“Scale” 和 “Permuted” 转变，并且 AMSL(R=3) 丢弃 “Noise”、“Scale”、“Permuted” 和 “Reversed” 变换。我们观察到我们的 AMSL 仍然达到了最好的 F1 和准确度分数。在其他数据集上，结论也类似。这使得我们的方法在实际应用中非常灵活。

表 7

表 7：模型参数比较。

5. 结论和未来工作

在本文中，我们提出了一种具有自监督学习功能的自适应记忆网络（AMSL），用于对多元时间序列信号进行无监督异常检测。为了增强模型对未见异常的泛化能力，我们建议使用自监督学习模块来学习各种正常模式，并使用自适应记忆融合网络来通过全局和局部记忆模块学习丰富的特征表示。对四个公共数据集的实验表明，我们的方法在准确性、泛化性和鲁棒性方面显着优于现有方法。

未来，我们计划将 AMSL 扩展到其他模式，例如图像和视频，以进行无监督异常检测。此外，我们还计划开发更有效的训练算法并对我们的方法进行理论分析。

参考文献

[1] B. Kiran, D. Thomas, and R. Parakkal, “An overview of deep learning based methods for unsupervised and semi-supervised anomaly detection in videos,” Journal of Imaging, vol. 4, no. 2, p. 36, 2018.
[2] Y. Mirsky, T. Doitshman, Y. Elovici, and A. Shabtai, “Kitsune: an ensemble of autoencoders for online network intrusion detection,” arXiv preprint arXiv:1802.09089, 2018.
[3] M. C. Chuah and F. Fu, “Ecg anomaly detection via time series analysis,” in International Symposium on Parallel and Distributed Processing and Applications. Springer, 2007, pp. 123–135.
[4] M. G. Terzano, L. Parrino, A. Smerieri, R. Chervin, S. Chokroverty, C. Guilleminault, M. Hirshkowitz, M. Mahowald, H. Moldofsky, A. Rosa et al, “Atlas, rules, and recording techniques for the scoring of cyclic alternating pattern (cap) in human sleep,” Sleep medicine, vol. 3, no. 2, pp. 187–199, 2002.
[5] M. Sakurada and T. Yairi, “Anomaly detection using autoencoders with nonlinear dimensionality reduction,” in Proceedings of the MLSDA 2014 2nd Workshop on Machine Learning for Sensory Data Analysis. ACM, 2014, p. 4.
[6] M. Gutoski, N. M. R. Aquino, M. Ribeiro, E. Lazzaretti, and S. Lopes, “Detection of video anomalies using convolutional autoencoders and one-class support vector machines,” in XIII Brazilian Congress on Computational Intelligence, 2017, 2017.
[7] M. Hasan, J. Choi, J. Neumann, A. K. Roy-Chowdhury, and L. S. Davis, “Learning temporal regularity in video sequences,” in CVPR, 2016, pp. 733–742.
[8] P. Malhotra, A. Ramakrishnan, G. Anand, L. Vig, P. Agarwal, and G. Shroff, “Lstm-based encoder-decoder for multi-sensor anomaly detection,” arXiv preprint arXiv:1607.00148, 2016.
[9] C. Zhang, D. Song, Y. Chen, X. Feng, C. Lumezanu, W. Cheng, J. Ni, B. Zong, H. Chen, and N. V. Chawla, “A deep neural network for unsupervised anomaly detection and diagnosis in multivariate time series data,” in Proceedings AAAI, vol. 33, 2019, pp. 1409–1416.
[10] R. Paffenroth, P. Du Toit, R. Nong, L. Scharf, A. P. Jayasumana, and V. Bandara, “Space-time signal processing for distributed pattern detection in sensor networks,” IEEE Journal of Selected Topics in Signal Processing, vol. 7, no. 1, pp. 38–49, 2013.
[11] H. Hoffmann, “Kernel pca for novelty detection,” Pattern recognition, vol. 40, no. 3, pp. 863–874, 2007.
[12] R. Laxhammar, G. Falkman, and E. Sviestins, “Anomaly detection in sea traffic-a comparison of the gaussian mixture model and the kernel density estimator,” in 2009 12th International Conference on Information Fusion. IEEE, 2009, pp. 756–763.
[13] L. J. Latecki, A. Lazarevic, and D. Pokrajac, “Outlier detection with kernel density functions,” in International Workshop on MLDM. Springer, 2007, pp. 61–75.
[14] A. Banerjee, P. Burlina, and C. Diehl, “A support vector method for anomaly detection in hyperspectral imagery,” IEEE Transactions on Geoscience and Remote Sensing, vol. 44, no. 8, pp. 2282–2291, 2006.
[15] J. Ma and S. Perkins, “Time-series novelty detection using oneclass support vector machines,” in Proceedings of the International Joint Conference on Neural Networks, 2003., vol. 3. IEEE, 2003, pp. 1741–1745.
[16] J. R. Medel and A. Savakis, “Anomaly detection in video using predictive convolutional long short-term memory networks,” arXiv preprint arXiv:1612.00390, 2016.
[17] J. An and S. Cho, “Variational autoencoder based anomaly detection using reconstruction probability,” Special Lecture on IE, vol. 2, no. 1, 2015.
[18] H. Xu, W. Chen, N. Zhao, Z. Li, J. Bu, Z. Li, Y. Liu, Y. Zhao, D. Pei, Y. Feng et al, “Unsupervised anomaly detection via variational auto-encoder for seasonal kpis in web applications,” in Proceedings of the 2018 World Wide Web Conference. International World Wide Web Conferences Steering Committee, 2018, pp. 187–196.
[19] D. Xu, Y. Yan, E. Ricci, and N. Sebe, “Detecting anomalous events in videos by learning deep representations of appearance and motion,” Computer Vision and Image Understanding, vol. 156, pp. 117–127, 2017.
[20] D. Wulsin, J. Blanco, R. Mani, and B. Litt, “Semi-supervised anomaly detection for eeg waveforms using deep belief nets,” in 2010 Ninth International Conference on Machine Learning and Applications. IEEE, 2010, pp. 436–441.
[21] S. Hawkins, H. He, G. Williams, and R. Baxter, “Outlier detection using replicator neural networks,” in International Conference on Data Warehousing and Knowledge Discovery. Springer, 2002, pp. 170–180.
[22] C. Zhou and R. C. Paffenroth, “Anomaly detection with robust deep autoencoders,” in KDD. ACM, 2017, pp. 665–674.
[23] W. Lu, Y. Cheng, C. Xiao, S. Chang, S. Huang, B. Liang, and T. Huang, “Unsupervised sequential outlier detection with deep architectures,” IEEE transactions on image processing, vol. 26, no. 9, pp. 4321–4330, 2017.
[24] P. Filonov, A. Lavrentyev, and A. Vorontsov, “Multivariate industrial time series with cyber-attack simulation: Fault detection using an lstm-based predictive data model,” arXiv preprint arXiv:1612.06676, 2016.
[25] T. Ergen, A. H. Mirza, and S. S. Kozat, “Unsupervised and semisupervised anomaly detection with lstm neural networks,” arXiv preprint arXiv:1710.09207, 2017.
[26] G. Lai, W.-C. Chang, Y. Yang, and H. Liu, “Modeling long-and short-term temporal patterns with deep neural networks,” in The 41st International ACM SIGIR Conference on Research & Development in Information Retrieval. ACM, 2018, pp. 95–104.
[27] W. Liu, W. Luo, D. Lian, and S. Gao, “Future frame prediction for anomaly detection–a new baseline,” in CVPR, 2018, pp. 6536–6545.
[28] Z. Li, J. Tang, and T. Mei, “Deep collaborative embedding for social image understanding,” IEEE transactions on pattern analysis and machine intelligence, vol. 41, no. 9, pp. 2070–2083, 2018.
[29] Z. Zhu and Z. Li, “Online video object detection via local and midrange feature propagation,” in Proceedings of the 1st International Workshop on Human-centric Multimedia Analysis, 2020, pp. 73–82.
[30] L. Jing and Y. Tian, “Self-supervised visual feature learning with deep neural networks: A survey,” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2020.
[31] M. Yang, Y. Li, Z. Huang, Z. Liu, P. Hu, and X. Peng, “Partially view-aligned representation learning with noise-robust contrastive loss,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 1134–1143.
[32] Y. Lin, Y. Gou, Z. Liu, B. Li, J. Lv, and X. Peng, “Completer: Incomplete multi-view clustering via contrastive prediction,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 11 174–11 183.
[33] M. Lewis, Y. Liu, N. Goyal, M. Ghazvininejad, A. Mohamed, O. Levy, V. Stoyanov, and L. Zettlemoyer, “Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension,” arXiv preprint arXiv:1910.13461, 2019.
[34] M. Ravanelli, J. Zhong, S. Pascual, P. Swietojanski, J. Monteiro, J. Trmal, and Y. Bengio, “Multi-task self-supervised learning for robust speech recognition,” in ICASSP 2020-2020 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2020, pp. 6989–6993.
[35] R. Ali, M. U. K. Khan, and C. M. Kyung, “Self-supervised representation learning for visual anomaly detection,” arXiv preprint arXiv:2006.09654, 2020.
[36] S. Wang, Y. Zeng, X. Liu, E. Zhu, J. Yin, C. Xu, and M. Kloft, “Effective end-to-end unsupervised outlier detection via inlier priority of discriminative network,” in Advances in Neural Information Processing Systems, 2019, pp. 5962–5975.
[37] S. Sukhbaatar, J. Weston, R. Fergus et al, “End-to-end memory networks,” in Advances in neural information processing systems, 2015, pp. 2440–2448.
[38] Q. Cai, Y. Pan, T. Yao, C. Yan, and T. Mei, “Memory matching networks for one-shot image recognition,” in CVPR, 2018, pp. 4080–4088.
[39] A. Santoro, S. Bartunov, M. Botvinick, D. Wierstra, and T. Lillicrap, “Meta-learning with memory-augmented neural networks,” in International conference on machine learning, 2016, pp. 1842–1850.
[40] M. Wang, Z. Lu, H. Li, and Q. Liu, “Memory-enhanced decoder for neural machine translation,” arXiv preprint arXiv:1606.02003, 2016.
[41] C. Zhang, Y. Wang, X. Zhao, Y. Guo, G. Xie, C. Lv, and B. Lv, “Memory-augmented anomaly generative adversarial network for retinal oct images screening,” in 2020 IEEE 17th International Symposium on Biomedical Imaging (ISBI). IEEE, 2020, pp. 1971– 1974.
[42] D. Gong, L. Liu, V. Le, B. Saha, M. R. Mansour, S. Venkatesh, and A. v. d. Hengel, “Memorizing normality to detect anomaly: Memory-augmented deep autoencoder for unsupervised anomaly detection,” in Proceedings of the IEEE International Conference on Computer Vision, 2019, pp. 1705–1714.
[43] H. Park, J. Noh, and B. Ham, “Learning memory-guided normality for anomaly detection,” in CVPR, 2020, pp. 14 372–14 381.
[44] L. Shen, Z. Li, and J. Kwok, “Timeseries anomaly detection using temporal hierarchical one-class network,” Advances in Neural Information Processing Systems, vol. 33, 2020.
[45] A. Saeed, T. Ozcelebi, and J. Lukkien, “Multi-task self-supervised learning for human activity detection,” Proceedings of the ACM on Interactive, Mobile, Wearable and Ubiquitous Technologies, vol. 3, no. 2, pp. 1–30, 2019.
[46] B. Zong, Q. Song, M. R. Min, W. Cheng, C. Lumezanu, D. Cho, and H. Chen, “Deep autoencoding gaussian mixture model for unsupervised anomaly detection,” in ICLR, 2018.
[47] K. Altun, B. Barshan, and O. Tunc¸el, “Comparative study on classifying human activities with miniature inertial and magnetic sensors,” Pattern Recognition, vol. 43, no. 10, pp. 3605–3620, 2010.
[48] A. Reiss and D. Stricker, “Introducing a new benchmarked dataset for activity monitoring,” in 2012 16th International Symposium on Wearable Computers. IEEE, 2012, pp. 108–109.
[49] P. Schmidt, A. Reiss, R. Duerichen, C. Marberger, and K. Van Laerhoven, “Introducing wesad, a multimodal dataset for wearable stress and affect detection,” in Proceedings of the 20th ACM International Conference on Multimodal Interaction, 2018, pp. 400–408.
[50] H.-P. Kriegel, M. Schubert, and A. Zimek, “Angle-based outlier detection in high-dimensional data,” in SIGKDD. ACM, 2008, pp. 444–452.
[51] S. S. Joshi and V. V. Phoha, “Investigating hidden markov models capabilities in anomaly detection,” in Proceedings of the 43rd annual Southeast regional conference-Volume 1. ACM, 2005, pp. 98–103.
[52] J. Donahue, L. Anne Hendricks, S. Guadarrama, M. Rohrbach, S. Venugopalan, K. Saenko, and T. Darrell, “Long-term recurrent convolutional networks for visual recognition and description,” in CVPR, 2015, pp. 2625–2634.
[53] B. Zhou, S. Liu, B. Hooi, X. Cheng, and J. Ye, “Beatgan: Anomalous rhythm detection using adversarially generated time series.” in IJCAI, 2019, pp. 4433–4439.
[54] A. Deng and B. Hooi, “Graph neural network-based anomaly detection in multivariate time series,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, no. 5, 2021, pp. 4027– 4035.
[55] “Cap sleep database,” 2012. [Online]. Available: https:// physionet :org/content/capslpdb/1 : 0 :0/ [56] N. Ketkar, “Introduction to keras,” in Deep learning with Python. Springer, 2017, pp. 97–111.
[57] S. Zhai, Y. Cheng, W. Lu, and Z. Zhang, “Deep structured energy based models for anomaly detection,” arXiv preprint arXiv:1605.07717, 2016.