NeurIPS 2022|基于时频一致性的时间序列自监督对比预训练方法

Self-supervised contrastive pre-training for time series via time-frequency Consistency

1 背景和问题

时间序列在许多领域发挥着重要作用,包括临床诊断、交通分析和气候科学。虽然表示学习在更广泛的范围内提高了对时间序列的分析,但时间数据的通用性表示学习仍然是一个具有根本挑战性的问题。预训练的核心是如何在不同的数据集中处理时间序列,以提高对来自不同数据集的新时间序列的泛化。通过在数据集上训练神经网络模型,并将其转移到新的目标数据集进行微调,即在没有对该目标数据进行显式再训练的情况下,最终的性能至少与针对目标数据集定制的最先进模型一样好。但是由于存在分布偏移、目标数据集的属性未知等多种原因,预期的性能增益往往无法实现,这些原因往往与时间序列的复杂性相结合,例如:数据集之间的时间动态变化大,语义变化大,不规则采样,系统因素等。以上这些时间序列的复杂性限制了预训练过程中的知识总结和转移。 此外,由于目标数据集在预训练期间不可用,要求预训练模型捕获一个潜在的特性,该特性适用于未见过的目标数据集。这一需求的核心是在预训练和目标数据集之间共享同一个属性的想法,该属性将实现从预训练到微调的知识转移。在计算机视觉(CV)中模型捕捉通用的视觉元素,如边缘和形状,这些元素与图像风格和任务无关。在自然语言处理(NLP)中,不同语言都遵循相似的语义和语法。但由于时间的复杂性,时序数据尚未建立一个通用的假设或者规律。 基于以上问题和挑战,论文作者提出了时频一致性(TF-C)建模,引入了一种在时间序列中进行自我监督预训练的策略。即同一时间序列样本学习的基于时间和基于频率的表示,在时间-频率空间中应该比不同时间序列样本的表示更接近。

2 方法介绍

时频一致性(TF-C)的核心思想是确定一个在时间序列数据集中保留的通用属性,并使用它来诱导迁移学习以进行有效的预训练。时域显示传感器读数如何随时间变化,而频域显示在整个频谱的每个频率分量中有多少信号。在高容量方法的情况下,这种方法是足够的,因为时域和频域是同一数据的不同视图,可以使用变换进行交叉转换,如傅立叶和逆傅立叶。基于信号处理理论,这两个域之间的关系提供了一种不变性,无论时间序列分布如何都是有效的,因此可以作为预训练的归纳偏置。 基于上述思路,论文作者构建的整体模型结构如下图所示。模型有四个组件(图2):一个时间编码器GT、一个频率编码器GF和两个跨空间投影RT和RF,分别将基于时间和基于频率的表示映射到相同的时间-频率空间。

  • 【时间编码器】 首先对一个时间序列进行数据增强,得到数据增强集合,增强包括抖动、缩放、时间偏移和邻域片段等经典操作。选择同一个样本的数据增强样本作为正样本对,不同样本及其数据增强样本作为负样本对。 经过Time Encoder后,让一个时间序列和其增强的结果表示相近,和其他时间序列远离,采用NT Xent(归一化温度标度交叉熵损失)作为距离函数,损失函数如下:

  • 【频率编码器】 通过变换算子(傅里叶变换)将时间序列样本生成频谱。在频域上通过随机抹除或增加frequency components实现频域上的数据增强。同时为了避免频域的绕道对原始序列噪声大的变化,导致增强后的序列和原始序列不相似,会对增删的components和增删幅度做限制。对于删除操作,会随机选择不超过E个频率进行删除;对于增加操作,会选择那些振幅小于一定阈值的频率,并提升其振幅。得到频域数据增强的结果后,使用频率编码器得到频域表示,利用和时域类似的对比学习进行学习。

  • 【时频一致性】 上述两个结构分别在时域和频域内利用对比学习进行表示学习,该结构将时域和频域表示均映射到联合时频空间,实现时域和频域的一致性,因此设计了一种一致性loss拉近同一个样本在时域和频域的表示。

损失函数如下所示,主要借鉴了三重损失的思想。是同一个原始时间序列经过时域编码和频域编码生成表示向量之前的距离,带波浪线上标的表示该原始样本的对于的数据增强样本之间得到向量距离。作者这样设计loss的依据是一个原始样本的时域编码和频域编码应该比其增强后样本的时域编码或频域编码更接近。

预训练通过以上三个损失函数进行联合训练。基于时间的对比损失促使模型学习对时间增强不变的嵌入,基于频率的对比损失促进了对基于频谱的增强不变的嵌入的学习。时频一致性损失引导模型保持基于时间和基于频率的嵌入之间的一致性。

3 实验和结果

作者将TF-C模型与10个基线在8个不同数据集上进行了比较。

  • 数据集

(1) SLEEPEEG 有371055个单变量脑电波(脑电图;100赫兹),收集自197个个体。每个样本都与五个睡眠阶段中的一个相关联。

(2) EPILEPSY 使用单通道脑电图传感器(174 Hz)监测500名受试者的大脑活动。根据受试者是否患有癫痫,对样本进行二进制标记。

(3) FD-A 收集来自机械系统的滚动轴承的振动信号,旨在进行故障检测。每个样本都有5120个时间戳和一个指示器,用于三种机械设备状态中的一种。

(4) FD-B 具有与FD-A相同的设置,但滚动轴承在不同的工作条件下运行(例如,变化的转速)。

(5) HAR 有来自6项日常活动的10299个9维样本。

(6) GESTURE 包括440个样本,这些样本是从加速度计记录的8个手势中收集的。

(7) ECG 包含8528个单传感器心电图记录,根据人体生理学分为四类。

(8) EMG 由163个带有3类标签的EMG样本组成,这些标签暗示肌肉疾病。

  • 一对一评估

一对一评估是指在一个预训练数据集上预训练模型,并仅在一个目标数据集上使用它进行微调。

场景3(HAR→ GESTURE):数据集记录了不同的活动(6种类型的人类日常活动与8种手势)。虽然两个数据集都包含加速度信号,但HAR有9个通道,而GESTURE有1个通道。 TF-C在F1得分中获得了79.91%的最高性能,比最佳基线TS-TCC(74.57%)高出5.4%。

  • 一对多评估

一对多评估指使用一个数据集进行预训练,然后独立地对多个目标数据集进行微调,无需从头开始预训练。

作者在睡眠脑电图上预训练模型,并在癫痫、FD-B、手势和肌电图上分别微调预训练模型。

当没有一致性loss(下图a)时,基于时间的嵌入和基于频率的嵌入是分开聚类的;当具一致性loss时,嵌入在很大程度上聚集在一起(下图b),所以作者提出的一致性loss具有将基于时间和基于频率的嵌入彼此拉近的能力。

4 结论和展望

该文章提出了一种新的自监督预训练方法,引入了时频一致性(TF-C)作为支持时间序列数据集之间知识转移的机制。该方法使用自监督对比估计,并将TF-C注入预训练中,使基于时间和频率的表示及其局部邻域在潜在空间中接近。TF-C属性可以作为在不同时间序列数据集上进行预训练的通用属性。

这篇文章直面了时序数据领域一个比较核心的问题,就是在时间序列数据中,哪种规律是类似于CV和NLP一样,在所有时序数据集上都遵循这一规律。论文作者提出了时域频域一致性的先验性假设,并证明在多种不同数据集上都成立,可以让时间序列预训练方法具有更强的泛化性和可推广性。

更多内容,敬请关注同名微信公众号:时空大数据兴趣小组。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值