这是一篇来自法国上阿尔萨斯大学研究者发表在IEEE Big Data 2018会议上的文章。迁移学习和深度学习已经被广泛应用于计算机视觉和自然语言处理领域。但是在时间序列分类方面,至今没有完整的有代表性的工作。本文是第一篇使用深度迁移学习进行时间序列分类的论文。在内容上与今年CVPR最佳论文《Taskonomy: Disentangling Task Transfer Learning》相似,都是做了大量的实验来验证一些迁移学习方面的结论。
Motivation
通常来说,用传统的机器学习方法(例如KNN、DTW)进行时间序列分类能取得比较好的效果。但是,基于深度网络的时间序列分类往往在大数据集上能够打败传统方法。另一方面,深度网络必须依赖于大量的训练数据,否则精度也无法超过传统机器学习方法。在这种情况下,进行数据增强、收集更多的数据、实用集成学习模型,都是提高精度的方法。这其中,迁移学习也可以被用在数据标注不路的情况。
从深度网络本身来看,有研究者注意到了,针对时间序列数据,深度网络提取到的特征,与CNN一样,具有相似性和继承性。因此,作者的假设就是,这些特征不只是针对某一数据集具有特异性,也可以被用在别的相关数据集。这就保证了用深度网络进行时间序列迁移学习的有效性。
Method
基本方法与在图像上进行深度迁移一致:先在一个源领域上进行pre-train,然后在目标领域上进行fine-tune。
然而,与图像领域有较多的经典网络结构可选择不同,时间序列并没有一个公认的经典网络架构。因此,作者为了保证迁移的效果不会太差,选择了之前研究者提出的一种全卷积网络(FCN,Fully Convolutional Neural Network)。这种网络已经在之间的研究中被证明具有较高的准确性和鲁棒性。
网络的结构如下图所示。网络由3个卷积层、1个全局池化层、和1个全连接层构成。使用全连接层的好处是,在进行不同输入长度序列的fine-tune时,不需要再额外设计池内化层。
与图像的区别就是,输入由图片换成了时间序列。注意到,图片往往具有一定的通道数(如常见的R、G、B三通道);时间序列也有通道:即不同维的时间序列数据。最简单的即是1维序列,可以认为是1个通道。多维时间序列则可以认为是多个通道。
网络迁移适配
Fine-tune的基本方法就是,不改变除softmax层以外的层的结构,只改变softmax层的构造。例如,预训练好的网络可能是一个分5类的网络,而目标领域则是一个10类的分类问题。这时候,就需要改变预训练网络的softmax层,使之由原来的5层变为10层,以适应目标领域的分类。
因此,源领域和目标领域的网络相比,除最后一层外,其他都相同。当然,相同的部分,网络权重也相同。
作者对整个网络都在目标领域上进行了fine-tune,而不是只fine-tune最后一层。因为以往的研究标明,在整个网络上进行fine-tune,往往会比只fine-tune某些层效果好。
选择合适的源领域:数据集间相似性
在进行迁移学习前,一个重要的问题就是:给定一个目标域,如何选择合适的源领域?如果选择的源域与目标域相似性过小,则很可能造成负迁移。
度量时间序列相似性的另一个问题是,如何度量不同维度的时间序列的相似性。作者提出把多维时间序列规约成每类由一维序列构成,然后利用DTW(Dynamic Time Warping)来度量两个时间序列的相似性。
在进行规约时,作者利用了之间研究者提出的DTW Barycenter Averaging (DBA)方法进行了时间序列的规约。
经过规约后,两个数据集便可度量相似性。
然而,这种方法具有很大的局限性。例如,它没有考虑到数据集内部不同维度之间的关联性。作者自己也承认这种方法不够好,但是由于他们的主要关注点是如何迁移,因此,并未在这个方面多做文章。
经过相似度计算,可以针对
Experiments
作者利用了UCI机器学习仓库中的85个时间序列分类数据集,构建了7140对迁移学习任务。为了进行如此大量的实验,他们用了来自英伟达的60个GPU。(只想说,有钱真好)
实验非常充分。这里简要说一下一些结论:
- 利用迁移往往效果比不迁移好,并且,几乎不会对原来的网络产生负面作用。
- 同一个目标域,不同的源域,产生的迁移效果千差万别:总能找到一些领域,迁移效果比不迁移好。
- 在选择正确的源域上,有时,随机选择的效果不一定会比经过作者的方法计算出来的要差。这说明,计算领域相似性的方法还有待加强。
总结
本文利用大量的时间序列进行了深度迁移学习分类的实验。用众多的实验结果证明了迁移学习对于时间序列分类的有效性。作者还提出了一种简单的比较时间序列相似性从而选择源领域的方法。
作者也非常慷慨地开源了他们的实验代码:Github 。
References
[1] 论文地址:https://arxiv.org/abs/1811.01533
[2] DBA方法:F. Petitjean and P. Ganc¸arski, “Summarizing a set of time series by averaging: From steiner sequence to compact multiple alignment,” Theoretical Computer Science, vol. 414, no. 1, pp. 76 – 91, 2012.
========================
[作者简介]王晋东(不在家),中国科学院计算技术研究所博士生,目前研究方向为机器学习、迁移学习、人工智能等。作者联系方式:微博@秦汉日记 ,个人网站Jindong Wang is Here。
=================
更多《小王爱迁移》系列文章:小王爱迁移》系列文章汇总