基于特征的对抗迁移学习论文_有关迁移学习论文

本文深入探讨了时间序列分析中的迁移学习应用,特别是针对不同场景下的数据迁移策略。文章指出,通过实例、特征表示和参数迁移等方式,可以改善模型在目标域的性能。实验表明,迁移学习可以提高准确性并减少训练所需的数据量。文中列举了多个论文案例,如基于特征的对抗迁移学习在航空飞行数据异常检测中的应用,以及跨建筑能源预测中的迁移学习框架。作者强调了选择合适源域的重要性,以及在时间序列中考虑周期性、趋势和非时间因素的调整。此外,文章还提到了多任务学习、深度神经网络、自编码器和生成对抗网络在时间序列预测中的应用,以解决数据稀缺性和域差异问题。最后,作者讨论了未来研究方向,包括模型的适应性、数据生成和模型选择,以及如何放宽源域与目标域的相似性要求。
摘要由CSDN通过智能技术生成

如果你有好的想法,欢迎讨论!

1 Application of Transfer Learning in Continuous Time Series for Anomaly Detection in Commercial Aircraft Flight Data

论文开始介绍了用于处理时间序列的两个主要的模型RNN和LSTM,同时介绍了什么是迁移学习

一 迁移学习的方法

1 基于样例的迁移学习(instance-based transfer-learning )

这种方法以重新加权的方式重用目标域中源域中的部分数据。在这种情况下,实例重新加权和重要性抽样是两种主要的技术。

2 基于特征的迁移学习( feature-representation-transfer method)

这种方法是在源域中不断学习,从数据中提取好的特征,然后以代码的形式迁移到目标域中。 使用新的特征表示,目标任务的性能有望显著提高。

3参数迁移

当模型建立时,它假定源域和目标域之间的一些参数是相同的。在迁移过程中,这些参数只需要直接从源域复制到目标域集,通过发现共享的参数或先验,就可以跨任务传递知识。

4 关系迁移

这种方法比较抽象。在机器学习领域中,各个领域的要素都会呈现出一定的关系,而对这些关系的充分理解可以帮助我们建立更好的模型。关系-知识-转移方法是指在具有相似关系结构的两个领域之间转移对这种关系的理解。

例如:老板和员工之前开会的关系和老师与学生上课的关系有相似之处,这种关系可以迁移。

二 三类迁移学习

1 归纳迁移学习:在这类任务中,无论源域和目标域是否相同,目标任务都与源任务(Ts ≠Tt)不同。

2 直推式迁移学习:在这个类别中,目标域不同于源域(Ds≠ DT),而它们的任务是相同的(TS=TT)

3 非监督迁移学习:就像归纳转移学习一样,任务与源任务不同,但又相关。

时间序列问题不同于分类问题。它变化较大,时间序列标签的特征空间不像分类问题那么有限(图相识别属于分类问题)。它需要在源域中构建和训练一个模型,潜在的数据更改存储在权重中。

三 试验

数据集是 商用飞机飞行数据

1 将连续时间序列转换为监督学习数据(这个我的博客有提),规范化数据集。

2 建立LSTM和全连接层的训练模型

3 训练出一个比较好的模型,保存权重把它用于目标域。

4 使用较少的数据集来训练这个模型,获得最终的迁移模型。

四 模型的评估

结果表明使用迁移学习后使用少量的训练集和相同的迭代次数时的准确性要高于没有使用迁移学习的模型,并且可以从损失函数的曲线看出。

五 总结

迁移学习的确可以提高准确性和减少时间的消耗,但是它的使用要求也有限制,有的时候反而会适得其反,目前为止我看到的迁移学习用于时间序列的论文,大多使用LSTM,GRU模型,在相似时间序列中的迁移。似乎看上去整体的步骤相似,没有突破之处。他们的研究往往仅限于表面,并没有深入的研究数据,我认为迁移学习的运用应该更加广泛,那么可以从细化时间序列上,或者通过变换,现在有个大致方向。

2 Transfer learning for time series classification

作者提出转移学习很少应用于时间序列数据的深度学习模型。这种缺失的原因之一可能是缺少一个大型通用数据集,像图片迁移现在就有一个通用的模型VGG16,它包括了1000多种图片种类,而且训练的准确性也十分高,我们大可以在这个模型的基础进行迁移学习,但是对于复杂多变的时间序列时间,没有一个通用的模型,还有,图片在抽象层中大致就像26个字母一样,有统一的集合来构成五彩缤纷的图片。

这篇论文要比上一张更加深入

1 使用DTW来比较时间序列之间的相似性(DTW博客有提到)

2 使用CNN模型,迁移时对最后一层softmax层进行替换

3 对于时间序列集,作者使用DBA算法把时间序列集合进行压缩(本博客有提到)

4 作者在评估结果的过程中,用于可视化方法,分析结果,发现迁移学习在相似的数据集之间表现的更好,而不相似的数据集则有相反的效果。

补充:

通常来说,用传统的机器学习方法(例如KNN、DTW)进行时间序列分类能取得比较好的效果。但是,基于深度网络的时间序列分类往往在大数据集上能够打败传统方法。另一方面,深度网络必须依赖于大量的训练数据,否则精度也无法超过传统机器学习方法。在这种情况下,进行数据增强、收集更多的数据、实用集成学习模型,都是提高精度的方法。这其中,迁移学习也可以被用在数据标注不路的情况。

从深度网络本身来看,有研究者注意到了,针对时间序列数据,深度网络提取到的特征,与CNN一样,具有相似性和继承性。因此,作者的假设就是,这些特征不只是针对某一数据集具有特异性,也可以被用在别的相关数据集。这就保证了用深度网络进行时间序列迁移学习的有效性。

Method

基本方法与在图像上进行深度迁移一致:先在一个源领域上进行pre-train,然后在目标领域上进行fine-tune。

然而,与图像领域有较多的经典网络结构可选择不同,时间序列并没有一个公认的经典网络架构。因此,作者为了保证迁移的效果不会太差,选择了之前研究者提出的一种全卷积网络(FCN,Fully Convolutional Neural Network)。这种网络已经在之间的研究中被证明具有较高的准确性和鲁棒性。

网络的结构如下图所示。网络由3个卷积层、1个全局池化层、和1个全连接层构成。使用全连接层的好处是,在进行不同输入长度序列的fine-tune时,不需要再额外设计池内化层。

与图像的区别就是,输入由图片换成了时间序列。注意到,图片往往具有一定的通道数(如常见的R、G、B三通道);时间序列也有通道:即不同维的时间序列数据。最简单的即是1维序列,可以认为是1个通道。多维时间序列则可以认为是多个通道。

网络迁移适配

Fine-tune的基本方法就是,不改变除softmax层以外的层的结构,只改变softmax层的构造。例如,预训练好的网络可能是一个分5类的网络,而目标领域则是一个10类的分类问题。这时候,就需要改变预训练网络的softmax层,使之由原来的5层变为10层,以适应目标领域的分类。

因此,源领域和目标领域的网络相比,除最后一层外,其他都相同。当然,相同的部分,网络权重也相同。

作者对整个网络都在目标领域上进行了fine-tune,而不是只fine-tune最后一层。因为以往的研究标明,在整个网络上进行fine-tune,往往会比只fine-tune某些层效果好。

选择合适的源领域:数据集间相似性

在进行迁移学习前,一个重要的问题就是:给定一个目标域,如何选择合适的源领域?如果选择的源域与目标域相似性过小,则很可能造成负迁移。

度量时间序列相似性的另一个问题是,如何度量不同维度的时间序列的相似性。作者提出把多维时间序列规约成每类由一维序列构成,然后利用DTW(Dynamic Time Warping)来度量两个时间序列的相似性。

在进行规约时,作者利用了之间研究者提出的DTW Barycenter Averaging (DBA)方法进行了时间序列的规约。

经过规约后,两个数据集便可度量相似性。

然而,这种方法具有很大的局限性。例如,它没有考虑到数据集内部不同维度之间的关联性。作者自己也承认这种方法不够好,但是由于他们的主要关注点是如何迁移,因此,并未在这个方面多做文章。

经过相似度计算,可以针对

 个数据集,得到一个 

 的相似性矩阵。此矩阵表示了不同数据集之间的相似度。相似度高的两个数据集,迁移效果最好。

Experiments

作者利用了UCI机器学习仓库中的85个时间序列分类数据集,构建了7140对迁移学习任务。为了进行如此大量的实验,他们用了来自英伟达的60个GPU。(只想说,有钱真好)

实验非常充分。这里简要说一下一些结论:

利用迁移往往效果比不迁移好,并且,几乎不会对原来的网络产生负面作用。

同一个目标域,不同的源域,产生的迁移效果千差万别:总能找到一些领域,迁移效果比不迁移好。

在选择正确的源域上,有时,随机选择的效果不一定会比经过作者的方法计算出来的要差。这说明,计算领域相似性的方法还有待加强。

本篇论文主要的新颖之处在于使用DTW和DBA算法,在评估相似性时更加具有说服性。

3 Transfer learning with seasonal and trend adjustment for cross-building energy forecasting

这篇论文的背景是,对于一座新建的大楼,预测它的耗能(内有传感器检测),由于新建大楼,检测到的数据非常有限,预测就不太准确,尤其是这种季节性很强的数据,于是作者想通过迁移学习来使用与它相近的大楼的数据进行模型的训练。

正则化方法:

min-max方法重新计算值,并将样本限制在0到1之间。

The z-score:

它返回的距离x均值μ,以倍数的标准差σ[8]。对于遵循正态分布的属性,建议使用z-score归一化。

选用模型:

趋势成分(Tt)是一个平稳、有规律和长期的统计序列,代表总体的增长或下

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值