基于深度学习时间序列分类研究综述[论文阅读]

核心论文

《Deep learning for time series classification: a review》
【作者】 Hassan Ismail Fawaz; Germain Forestier; Jonathan Weber; Lhassane Idoumghar;
【期刊名】Statistics
【年份】2018

写在前面的话

本人将此论文阅读后,提取了介绍性的东西,针对性的做了一些翻译和摘要。近些年来,关于时间序列分类问题大多都是用传统机器学习方法进行研究,很少人使用深度学习模型。因而本篇论文就是针对深度学习模型在时间序列中的使用进行了系统的整理,并尝试解决如下问题:
TSC目前最先进的DNN是什么?
当前的DNN方法是否达到TSC非DNN的最先进性能并且不如它复杂?
哪种类型的DNN架构最适合TSC任务?
随机初始化如何影响深度学习分类器的性能?
是否可以避免DNN的黑盒效应以提供可解释性?

原文概述

摘要

摘要:时间序列分类(TSC)是数据挖掘中一个重要且具有挑战性的问题。随着时间序列数据可用性的增加,已经提出了数百种TSC算法。在这些方法中,只有少数人考虑过深度神经网络(DNN)来执行这项任务。 DNN确实彻底改变了计算机视觉领域,特别是随着新的更深层架构如残余和卷积神经网络的出现。除了图像之外,还可以使用DNN处理诸如文本和音频之类的顺序数据,以达到用于文档分类和语音识别的最先进性能。在本文中,我们简介TSC最新DNN架构,研究了TSC深度学习算法的当前最新性能。在此概述了在统一的TSN分类标准下,TSC中各个时间序列域中最成功的深度学习应用程序。

1引言

在过去的二十年中,时间序列分类(TSC)被认为是数据挖掘中最具挑战性的问题之一。随着时间数据可用性的增加(Silva等,20181),自2015年以来已经提出了数百种TSC算法(Bagnall等,20172)。由于它们的自然时间顺序,时间序列数据几乎存在于需要某种人类认知过程的每项任务中(Längkvist等,20143)。事实上,任何分类问题,使用的数据考虑到次序这一概念,都可以被视为TSC问题(Cristian Borges Gamboa,20174)。在许多现实世界的应用中都会遇到时间序列,从电子健康记录和人类活动识别到声学场景分类和网络安全。此外,UCR / UEA档案中数据集类型的多样性(最大的时间序列数据集库)显示了TSC问题的不同应用。

鉴于需要对时间序列数据进行准确分类,研究人员提出了数百种方法来解决这一问题(Bagnall,20172)。最流行和传统的TSC方法之一是使用最近邻(NN)分类器和距离函数(Lines和Bagnall,20155)。特别是与NN分类器一起使用时的动态时间扭曲(DTW)距离已被证明是一个非常强的基线(Bagnall,20176)。 Lines和Bagnall(2015)对几种距离测量进行了比较,结果显示没有单一的距离测量值明显优于DTW。他们还表明,对各个NN分类器(具有不同的距离测量)进行整合优于所有整体的各个组件。因此,最近的贡献集中于开发明显优于NN加上DTW(NN-DTW)的集合方法。这些方法使用决策树集合(随机森林)(Baydogan等人,2013; Deng等人,2013)或在一个或多个特征空间上用不同类型的判别分类器(支持向量机(SVM),具有多个距离的NN)的集合(Bagnall等,2016; Bostrom和Bagnall,2015)。大多数这些方法明显优于NN-DTW(Bagnall等,2017)并且共享一个共同属性,即数据转换阶段,其中时间序列被转换为新的特征空间(例如使用shapelets变换(Bostrom和Bagnall) ,2015)或DTW功能(Kate,2016))。这个概念推动了35个分类器的集合的发展,这些分类器命名为COTE(基于转换的集合)(Bagnall等,20167),它不仅在同一变换上集合了不同的分类器,而且在不同的时间序列表示中集合了不同的分类器。 Lines等(2016年,2018年8)使用分层投票系统扩展COTE成为HIVE-COTE,通过利用具有概率投票的新分层结构,包括两个新的分类器和两个额外的表示转换域,已经证明它可以实现对COTE的显着改进。当对来自UCR / UEA档案的85个数据集进行评估时,HIVE-COTE目前被认为是时间序列分类的最先进算法(Bagnall等,2017)

为了实现高精度,HIVE-COTE变得非常计算密集,并且在真正的大数据挖掘问题上运行是不切实际的(Bagnall等,2017)。该方法需要训练37个分类器以及交叉验证这些算法的每个超参数,这使得该方法在某些情况下无法进行训练(Lucas等,2018)。为了强调这种不可行性,请注意这37个分类器中的一个是Shapelet变换(Hills等,2014),其时间复杂度为O( n 2 ∗ l 2 n^2*l^2 n2l2),n为数据集中的时间序列数,l是时间序列的长度。加上训练时间的复杂性是37个分类器之一的高分类时间:在测试时做出决定之前需要扫描训练集的最近邻居。因此,由于最近邻居构成了HIVE-COTE的重要组成部分,因此即使不是不切实际,其在实时环境中的部署仍然是有限的。最后,增加了HIVE-COTE的巨大运行时间,37个分类器所做出的决定无法轻易解释领域专家,因为研究人员已经很难理解个别分类器所做的决定。

在为TSC建立了当前最先进的非深度分类器之后(Bagnall et al,2017),我们讨论了深度学习(LeCun等人,20159)在各种分类任务中的成功,这些任务激发了最近的利用深度学习模型进行TSC(Wang et al,2017b10)。深度卷积神经网络(CNNs)彻底改变了计算机视觉领域(Krizhevsky等,2012)。例如,在2015年,CNN用于在图像识别任务中的表现达到了人类水平(Szegedy等,2015)。随着计算机视觉中深度神经网络(DNN)的成功,大量的研究提出了几种DNN架构来解决自然语言处理(NLP)任务,如机器翻译(Sutskever等,2014; Bahdanau等,2015) ),学习单词嵌入(Mikolov等,2013; Mikolov等,2013)和文档分类(Le和Mikolov,2014; Goldberg,2016)。 DNN也对语音识别社区产生了巨大影响(Hinton等,2012; Sainath等,2013)。有趣的是,我们应该注意到NLP和语音识别任务之间的内在相似性是由于数据的顺序方面,这也是时间序列数据的主要特征之一。

在此背景下,本文针对以下开放性问题:
TSC目前最先进的DNN是什么?
当前的DNN方法是否达到TSC的最先进性能并且不如HIVECOTE复杂?
哪种类型的DNN架构最适合TSC任务?
随机初始化如何影响深度学习分类器的性能?
最后:是否可以避免DNN的黑盒效应以提供可解释性?
鉴于TSC社区尚未解决后面的问题,令人惊讶的是,最近有多篇论文忽略了使用纯特征学习算法解决TSC问题的可能性(Neamtu等,2018; Bagnall等, 2017; Lines等,2016)。事实上,最近的一项实证研究(Bagnall等,2017)在85个时间序列数据集上评估了18种TSC算法,其中没有一种是深度学习模型。这表明圈内缺乏对解决TSC问题的深度学习模型当前表现的概述(Lines et al,2018)。

在本文中,我们对最新的TSC深度学习方法进行了实证比较研究。 随着图形处理单元(GPU)的兴起,我们展示了如何有效地训练深层架构,以便以端到端的方式从原始时间序列中学习隐藏的判别特征。 与Bagnall等人(2017年)类似,为了在测试方法之间进行公平比较,我们在Python,Keras(Chollet,2015)和Tensorflow(Abadi等人,2015)中开发了一个共同框架来训练深度学习超过60个GPU的集群上的模型。

除了单变量数据集的评估,我们还测试了12个多变量时间序列(MTS)数据集的方法(Baydogan,2015)。 多变量评估显示了深度学习模型的另一个好处,即通过利用组成函数中不同程度的平滑度来处理维数灾难的能力(Bellman,2010; Keogh和Mueen,2017)(Poggio等,2017) 以及GPU的并行计算(Lu et al。,2015)。

在这项研究中,我们在97个单变量和多变量时间序列数据集中训练了大约10亿个参数。 尽管大量参数由于UCR / UEA档案中相对较小的训练集存在过度拟合(Zhang et al.,201711),我们的实验表明,不仅DNN能够明显优于NN-DTW,而且 使用深度残差网络架构也能够获得与COTE和HIVE-COTE没有显着差异的结果(He等,2016; Wang等,2017b)。 最后,我们分析了差的随机初始化如何对DNN的性能产生重大影响。

本文的其余部分的结构如下。在第2节中,我们提供了一些有关为TSC提出的主要架构类型的背景资料。在第3节中,测试的体系结构将单独详细介绍。我们在第4节中描述了我们的实验性开源框架。相应的结果和讨论在第5节中介绍。在第6节中,我们详细描述了一些减轻深度学习模型的黑盒效应的方法。最后,我们在第7节中总结了我们的发现并讨论了未来的发展方向。
本文的主要贡献可归纳如下:

  • 我们用实际例子解释,深度学习如何适应一维时间序列数据。
  • 我们提出了一个统一的分类法,它将TSN最近在各个领域的DNN应用重新组合在两个主要类别下:生成模型和判别模型。
  • 我们详细介绍了专为TSC设计的九种端到端深度学习模型的架构。
  • 我们在单变量UCR / UEA档案基准和12个MTS分类数据集上评估这些模型。
  • 我们为社区提供了一个针对TSC的开源深度学习框架,我们在其中实施了所有九种方法。
  • 我们研究了类激活图(CAM)的使用,以减少DNN的黑盒效应,并解释各种模型所做出的不同决策。

2背景

在本节中,我们首先介绍必要的定义以便于理解。然后,我们将继续介绍有关TSC任务的DNN培训的广泛理论背景。 最后,我们提出了我们对不同DNN的分类,并举例说明了它们在各种现实世界数据挖掘问题中的应用。

2.1时间序列分类

在介绍不同类型的神经网络架构之前,我们先介绍一些TSC的正式定义。
定义1 单变量时间序列 X = [ x 1 , x 2 , . . . , x T ] X =[x_1,x_2,...,x_T] X=[x1,x2,...,xT] 是一组有序的实数值。 X X X的长度等于实数 T T T的值。
定义2 M M M M T S MTS MTS X = [ X 1 , X 2 , . . . , X M ] X = [X^1,X^2,...,X^M] X=[X1,X2,...,XM] 是由 M M M个不同的时间序列 X i ∈ R T X^i\in\mathbb R^T XiRT组成。
定义3 一个数据集 D D D = { ( X 1 , Y 1 ) , ( X 2 , Y 2 ) , . . . ( X N , Y N ) } \left\{(X_1,Y_1),(X_2,Y_2),...(X_N,Y_N)\right\} { (X1,Y1),(X2,Y2),...(XN,YN)} ( X i , Y i ) (X_i,Y_i) (Xi,Yi)的集合,其中

  • 56
    点赞
  • 341
    收藏
    觉得还不错? 一键收藏
  • 17
    评论
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值