内含动画的PPT已经上传,可以在我上传的资源里看到,可免费下载
论文链接:https://www.ijcai.org/Proceedings/2019/0378.pdf
本文发表于2019年IJCAI会议上,全文主要围绕“异常检测+时间序列+集成+自编码器”展开,以下是我学习本篇论文后的收获,如有不正确的地方,请大家批评指正!
第一次阅读
- 研究方向
- 写作动机
- 实现思路
- 文章创新
第二次阅读(6.17)
论文信息
-
2019
-
IJCAI
-
作者单位:丹麦奥尔堡大学
-
两个时序数据集(单变量NAB+多变量时间序列存储库心电图(ECG))
NAB数据集下载地址:https://github.com/numenta/NAB
ECG数据集下载地址:http://www.cs.ucr.edu/ eamonn/discords/ECG data.zip/ -
本文是第一篇将自编码器集成应用于时序数据上的文章
论文链接:https://www.ijcai.org/Proceedings/2019/0378.pdf
代码链接:https://github.com/tungk/OED.
被引量:8次(6.17)
一、理解论文需要储备的基本知识
——集成的基本思想
——自编码器的相关理论知识
1、集成的基本思想
- 思想:将多个个体学习器用某种策略组合起来成为强学习器——“三个臭皮匠顶个诸葛亮”
相关参考链接:
(1)链接一:图文并茂解释集成学习
(2)链接二:含代码的集成学习解释
(3)链接三:特别详细的集成学习总结
2、基于RNN的自编码器
- 思想:原始数据压缩——>隐藏空间(具有代表特征的数据)——>解压(重构)
相关参考链接:
(1)AE的简单理解
(2)自编码器(AutoEncoder)入门及TensorFlow实现
二、论文动机
1、目标是识别未标记时间序列中的异常值——>想到使用自编码器来解决(通过重构误差)
2、BUT! 单个自动编码器因过拟合会产生异常值 ——>想到自编码器集成来解决,集成在于建立一组自编码器,并在检测异常点时考虑多个自编码器的重建误差
3、BUT!! 有效的自动编码器集成仅存在于非序列数据,并且将它们直接应用于时间序列数据会产生较差的结果——>提出两个循环神经网络自动编码器集成框架来填补这一空白<——RNN被证明在时序的学习上有效。
三、论文方法
——提出了两种时间序列异常点检测方法,两个方法都是集成框架(一个独立框架+一个共享框架)。
—— 两个集成框架均使用 稀疏连接递归神经网络(S-RNNs) 构建的自动编码器。
1、 构建稀疏连接的RNN
(1)单个自编码器内部结构如下
(2)根据非序列数据自动编码器集成的思想,目的在于构造具有不同网络结构的多个自动编码器
-
通常采用—— 循环跳跃连接网络(Recurrent Skip Connection Networks,RSCNs)
思想:每个RNN单元不仅考虑前一步的隐藏状态,而且还考虑过去的其他隐藏状态。
-
基于RSCNs思想——稀疏连接递归神经网络(Sparse Recurrent Neural Networks,S-RNN)
思想:基于上图,随机删除隐藏状态之间的一些连接,实际就是引入稀疏权重向量,让某些权重值=0
2、 基于S-RNN的多个自编码器的集成
-
独立框架(IF)
(1)集成包含N个AE,每个AE由一个编码器Ei和一个解码器Di组成
(2)但每个AE的网络结构不同,即它们具有其不同的稀疏权重向量
(3)每个AE通过最小化目标函数Ji独立训练的
-
共享框架(SF)
引入——独立框架意味着不同的AE在训练阶段不会交互,然而,由于所有的自动编码器都试图重建相同的原始时间序列,这使得自动编码器之间的交互需要构建关系——“三个臭皮匠顶个诸葛亮”
(1)提出共享框架:给定N个任务,每个任务重建原始时间序列,让N个任务通过共享层进行交互
(2)共享层:连接所有编码器的所有最后隐藏状态的线性组合(使用线性权重矩阵W(Ei))
(3)SF的训练:通过最小化所有自动编码器的重建误差和共享隐藏状态上的L1正则项的目标函数J,联合训练所有自动编码器:
说明:L1正则化具有使共享隐藏状态h(E)C稀疏的效果。这避免了一些编码器与原始时间序列过拟合的情况,有助于使解码器变得健壮,并减少异常值的影响。因此,当自动编码器遇到异常值时,原始时间序列和重构时间序列之间的差异更加明显。
3、 集合异常值得分
分析:因为有N个AE——>重建N个时间序列——>获得N个重建误差
选择:使用N个误差的中位数作为向量Sk的最终离群值得分
解释:中值代替均值减少了过拟合原始时间序列的自编码对重建误差的影响。
4、 实验分析
(1)数据集的相关了解
-
NAB(单维):包含来自不同域的六组时间序列,其中每一组包含约10个单变量时间序列,每个时间序列包含5000到20000个观测值。
-
ECG(多维):包括7个病人的7个三维时间序列,每个时间序列有3750到5400个观察点。
(2)参数设置
(3)评价指标:
- 精确召回曲线(PR-AUC)下所有可能的阈值区域+接收器工作特性曲线下的面积(ROC-AUC)。
- 这两个指标并不依赖于特定的阈值。相反,它们反映了真阳性、真阴性、假阳性和假阴性之间的全面权衡。
- PR-AUC和ROCAUC值越高,说明准确性越高。
(4)实验结果分析
-
比对实验
-
两个集成框架中自动编码器数目N的影响
-
IF VS SF的两个框架实验比对(保证其他自变量一致,如两个框架AE数目及内部结构)
结果显示:SF性能更好,则表明以一种共享的多任务方式学习多个自动编码器确实是有帮助的
-
循环跳跃连接网络 跳跃跨度L的影响
结果显示:从L从1-10,精度没有显著影响,这表明集成框架对小跳跃步骤不敏感。
当L=20时,精度开始下降,这表明在大跳跃步与稀疏连接相结合时丢失了重要的时间信息。
四、论文创新
自编码器+稀疏RNN+集成
五、论文小结
- 提出了稀疏连接的递归单元,使具有不同网络结构的自动编码器成为可能。
- 提出了两个集成框架,IF(独立框架)+SF(共享框架)。
- 通过使用单变量和多变量时间序列的实验,从而证明了所提出的集成框架的有效性。
- 实验充分,从大的比对实验到小的参数设定实验,面面俱到。