(七)Outlier Detection for Time Series with Recurrent Autoencoder Ensembles 基于递归自编码集成的时间序列离群点检测

内含动画的PPT已经上传,可以在我上传的资源里看到,可免费下载

论文链接:https://www.ijcai.org/Proceedings/2019/0378.pdf

本文发表于2019年IJCAI会议上,全文主要围绕“异常检测+时间序列+集成+自编码器”展开,以下是我学习本篇论文后的收获,如有不正确的地方,请大家批评指正!

第一次阅读

  1. 研究方向
  2. 写作动机
  3. 实现思路
  4. 文章创新

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

第二次阅读(6.17)

论文信息

论文链接:https://www.ijcai.org/Proceedings/2019/0378.pdf
代码链接:https://github.com/tungk/OED.
被引量:8次(6.17)

一、理解论文需要储备的基本知识

——集成的基本思想
——自编码器的相关理论知识

1、集成的基本思想

  • 思想:将多个个体学习器用某种策略组合起来成为强学习器——“三个臭皮匠顶个诸葛亮”

相关参考链接:

(1)链接一:图文并茂解释集成学习
(2)链接二:含代码的集成学习解释
(3)链接三:特别详细的集成学习总结

在这里插入图片描述
2、基于RNN的自编码器

  • 思想:原始数据压缩——>隐藏空间(具有代表特征的数据)——>解压(重构)

相关参考链接:
(1)AE的简单理解
(2)自编码器(AutoEncoder)入门及TensorFlow实现
在这里插入图片描述

二、论文动机

1、目标是识别未标记时间序列中的异常值——>想到使用自编码器来解决(通过重构误差)
2、BUT! 单个自动编码器因过拟合会产生异常值 ——>想到自编码器集成来解决,集成在于建立一组自编码器,并在检测异常点时考虑多个自编码器的重建误差
3、BUT!! 有效的自动编码器集成仅存在于非序列数据,并且将它们直接应用于时间序列数据会产生较差的结果——>提出两个循环神经网络自动编码器集成框架来填补这一空白<——RNN被证明在时序的学习上有效。
在这里插入图片描述

三、论文方法

——提出了两种时间序列异常点检测方法,两个方法都是集成框架(一个独立框架+一个共享框架)。
—— 两个集成框架均使用 稀疏连接递归神经网络(S-RNNs) 构建的自动编码器。

1、 构建稀疏连接的RNN

(1)单个自编码器内部结构如下
在这里插入图片描述
(2)根据非序列数据自动编码器集成的思想,目的在于构造具有不同网络结构的多个自动编码器

  1. 通常采用—— 循环跳跃连接网络(Recurrent Skip Connection Networks,RSCNs)

    思想:每个RNN单元不仅考虑前一步的隐藏状态,而且还考虑过去的其他隐藏状态。
    在这里插入图片描述

  2. 基于RSCNs思想——稀疏连接递归神经网络(Sparse Recurrent Neural Networks,S-RNN)

    思想:基于上图,随机删除隐藏状态之间的一些连接,实际就是引入稀疏权重向量,让某些权重值=0
    在这里插入图片描述

2、 基于S-RNN的多个自编码器的集成
  1. 独立框架(IF)

    (1)集成包含N个AE,每个AE由一个编码器Ei和一个解码器Di组成
    (2)但每个AE的网络结构不同,即它们具有其不同的稀疏权重向量
    (3)每个AE通过最小化目标函数Ji独立训练的
    在这里插入图片描述在这里插入图片描述

  2. 共享框架(SF)
    引入——独立框架意味着不同的AE在训练阶段不会交互,然而,由于所有的自动编码器都试图重建相同的原始时间序列,这使得自动编码器之间的交互需要构建关系——“三个臭皮匠顶个诸葛亮”

(1)提出共享框架:给定N个任务,每个任务重建原始时间序列,让N个任务通过共享层进行交互
(2)共享层:连接所有编码器的所有最后隐藏状态的线性组合(使用线性权重矩阵W(Ei))
在这里插入图片描述
(3)SF的训练:通过最小化所有自动编码器的重建误差和共享隐藏状态上的L1正则项的目标函数J,联合训练所有自动编码器:
在这里插入图片描述

说明:L1正则化具有使共享隐藏状态h(E)C稀疏的效果。这避免了一些编码器与原始时间序列过拟合的情况,有助于使解码器变得健壮,并减少异常值的影响。因此,当自动编码器遇到异常值时,原始时间序列和重构时间序列之间的差异更加明显。

在这里插入图片描述

3、 集合异常值得分

分析:因为有N个AE——>重建N个时间序列——>获得N个重建误差
选择:使用N个误差的中位数作为向量Sk的最终离群值得分
解释:中值代替均值减少了过拟合原始时间序列的自编码对重建误差的影响。

4、 实验分析

(1)数据集的相关了解

  • NAB(单维):包含来自不同域的六组时间序列,其中每一组包含约10个单变量时间序列,每个时间序列包含5000到20000个观测值。

  • ECG(多维):包括7个病人的7个三维时间序列,每个时间序列有3750到5400个观察点。

(2)参数设置

- 优化器:Adadelta;学习率:10-3
(3)评价指标:

  • 精确召回曲线(PR-AUC)下所有可能的阈值区域+接收器工作特性曲线下的面积(ROC-AUC)。
  • 这两个指标并不依赖于特定的阈值。相反,它们反映了真阳性、真阴性、假阳性和假阴性之间的全面权衡。
  • PR-AUC和ROCAUC值越高,说明准确性越高。

(4)实验结果分析

  1. 比对实验
    在这里插入图片描述

  2. 两个集成框架中自动编码器数目N的影响
    在这里插入图片描述

  3. IF VS SF的两个框架实验比对(保证其他自变量一致,如两个框架AE数目及内部结构)

结果显示:SF性能更好,则表明以一种共享的多任务方式学习多个自动编码器确实是有帮助的
在这里插入图片描述

  1. 循环跳跃连接网络 跳跃跨度L的影响

    结果显示:从L从1-10,精度没有显著影响,这表明集成框架对小跳跃步骤不敏感。
    当L=20时,精度开始下降,这表明在大跳跃步与稀疏连接相结合时丢失了重要的时间信息。
    在这里插入图片描述

四、论文创新

自编码器+稀疏RNN+集成

五、论文小结

  1. 提出了稀疏连接的递归单元,使具有不同网络结构的自动编码器成为可能。
  2. 提出了两个集成框架,IF(独立框架)+SF(共享框架)。
  3. 通过使用单变量和多变量时间序列的实验,从而证明了所提出的集成框架的有效性。
  4. 实验充分,从大的比对实验到小的参数设定实验,面面俱到。

论文笔记论文笔记

  • 15
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 11
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 11
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

是肉球哇

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值