SOFT CONTRASTIVE LEARNING FOR TIME SERIES

Seunghan Lee, Taeyoung Park, Kibok Lee
延世大学统计学与数据科学系
{seunghan9613,tpark,kibok}@yonsei.ac.kr

摘要:对比学习已被证明是一种从时间序列中以自监督方式学习表示的有效方法。然而,对比相似的时间序列实例或时间序列中相邻时间戳的值会导致忽略它们的内在相关性,从而降低学习到的表示的质量。为了解决这个问题,我们提出了 SoftCLT,这是一种简单而有效的时间序列软对比学习策略。这是通过引入实例级和时间对比损失,并使用介于 0 到 1 之间的软分配来实现的。具体来说,我们通过数据空间中时间序列之间的距离为实例级对比损失定义软分配,通过时间戳的差异为时间对比损失定义软分配。SoftCLT 是一种即插即用的时间序列对比学习方法,无需复杂操作即可提高学习到的表示的质量。在实验中,我们证明 SoftCLT 在各种下游任务中持续提高性能,包括分类、半监督学习、迁移学习和异常检测,展现出了最先进的性能。代码可在以下代码库中获取:GitHub - seunghan96/softclt 。

1 引言

时间序列(Time Series, TS)数据在许多领域中普遍存在,包括金融、能源、医疗和交通(Ding 等人,2020;Lago 等人,2018;Solares 等人,2020;Cai 等人,2020)。然而,标注时间序列数据可能具有挑战性,因为这通常需要大量的领域专业知识和时间。为了克服这一限制并利用未标注的数据,自监督学习已成为一种有前途的表示学习方法,不仅在自然语言处理(Devlin 等人,2018;Gao 等人,2021)和计算机视觉(Chen 等人,2020;Dosovitskiy 等人,2021)领域,而且在时间序列分析(Franceschi 等人,2019;Yue 等人,2022)中也是如此。特别是,对比学习(Contrastive Learning, CL)在不同领域都展现出了卓越的性能(Chen 等人,2020;Gao 等人,2021;Yue 等人,2022)。由于在自监督学习中确定实例的相似性具有挑战性,最近的对比学习工作应用数据增强为每个数据生成两个视图,并将来自同一实例的视图视为正样本对,其他视图视为负样本对(Chen 等人,2020)。然而,我们认为标准的对比学习目标可能对时间序列表示学习有害,因为相似时间序列实例和时间序列中相邻时间戳的值之间的内在相关性(这可能是一种强大的自监督)在对比学习中被忽略了。例如,动态时间规整(Dynamic Time Warping, DTW)等距离度量已被广泛用于测量时间序列数据的相似性,而对比时间序列数据可能会丢失此类信息。此外,在自然的时间序列数据中,时间戳相近的值通常相似,因此像以前的对比学习方法(Eldele 等人,2021;Yue 等人,2022)那样以相同的惩罚程度对比所有不同时间戳的值可能不是最优的。受此启发,我们探索以下研究问题:如何考虑时间序列数据的相似性以实现更好的对比表示学习?为此,我们提出了时间序列的软对比学习(Soft Contrastive Learning for Time series, SoftCLT)。具体而言,我们提议不仅对正样本对考虑 InfoNCE 损失(Oord 等人,2018),还对所有其他样本对考虑该损失,并在实例级对比学习和时间对比学习中计算它们的加权和。其中,实例级对比学习对比时间序列实例的表示,而时间对比学习对比单个时间序列中时间戳的表示,如图 1 所示。我们提议根据时间序列之间的距离为实例级对比学习分配软分配,根据时间戳的差异为时间对比学习分配软分配。这种公式化可以看作是标准对比损失的一种推广,因为如果我们用硬分配(负样本为 0,正样本为 1)替换软分配,所提出的损失就变成了对比损失。

我们在各种任务中进行了广泛的实验,包括时间序列分类、半监督分类、迁移学习和异常检测任务,以证明所提出方法的有效性。实验结果验证了我们的方法提高了先前对比学习方法的性能,在一系列下游任务中实现了最先进(state-of-the-art, SOTA)的性能。本文的主要贡献总结如下:

  • 我们提出了 SoftCL,这是一种简单而有效的时间序列软对比学习策略。具体来说,我们分别为实例和时间维度提出了软对比损失,以解决先前时间序列对比学习方法的局限性。
  • 我们在时间序列的各种任务上提供了广泛的实验结果,表明我们的方法在一系列下游任务中提高了最先进的性能。例如,与用于分类任务的最先进的无监督表示相比,SoftCLT 将 125 个 UCR 数据集和 29 个 UEA 数据集的平均准确率分别提高了 2.0% 和 3.9%。
  • SoftCLT 通过引入软分配,很容易应用于其他时间序列对比学习框架,并且其开销可以忽略不计,使其具有实际应用价值。

2 相关工作

2.1 自监督学习

近年来,自监督学习因其能够从大量未标注数据中学习强大的表示而备受关注。自监督学习是通过训练模型来解决从数据的某个方面派生的前置任务(pretext task),而无需监督。作为一种自监督前置任务,下一个标记预测(next token prediction)(Brown 等人,2020)和掩码标记预测(masked token prediction)(Devlin 等人,2018)在自然语言处理中常用,而解决拼图游戏(Noroozi & Favaro,2016)和旋转预测(Gidaris & Komodakis,2018)在计算机视觉中被提出。特别是,对比学习(Hadsel 等人,2006)已被证明是一种跨领域有效的前置任务,它最大化正样本对的相似性,同时最小化负样本对的相似性(Gao 等人,2021;Chen 等人,2020;Yue 等人,2022)。

2.2 时间序列中的对比学习

在时间序列分析领域,为对比学习提出了几种正样本和负样本对的设计,同时考虑了时间序列的不变性属性。表 1 从几个属性方面比较了各种时间序列对比学习方法,包括我们的方法。

T-Loss(Franceschi 等人,2019)从时间序列中随机采样一个子序列,当子序列属于同一时间序列时将其视为正样本,否则视为负样本。Self-Time(Fan 等人,2020)通过将同一时间序列的增强样本定义为正样本,其他为负样本,来捕捉时间序列之间的样本间关系,并通过解决一个分类任务来捕捉时间序列内的时间关系,其中类标签是使用子序列之间的时间距离定义的。TNC(Tonckaboni 等人,2021)使用正态分布定义窗口的时间邻域,并将邻域内的样本视为正样本。TS-SD(Shi 等人,2021)使用三元组相似性判别任务训练模型,目标是识别两个时间序列中哪个与给定时间序列更相似,使用 DTW 来定义相似性。TS-TCC(Eldele 等人,2021)通过使增强样本相互预测未来提出了一种时间对比损失,而 CA-TCC(Eldele 等人,2023)是 TS-TCC 在半监督设置下的扩展,采用了相同的损失。TS2Vec(Yue 等人,2022

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值