论文题目:SELF-SUPERVISED CONTRASTIVE LEARNING FOR LONG-TERM FORECASTING
论文地址:
https://arxiv.org/abs/2402.02023
代码地址:
https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating
摘要
由于处理长序列的时间和内存复杂性,长期预测提出了独特的挑战。现行依赖于滑动窗口处理长序列的方法,在有效捕获那些部分落入短窗口内的长期变化(即外窗变化)时面临困难。在本文中,我们介绍了一种新的方法,克服了这一限制,采用对比学习和增强的分解架构,专门针对长期的变化。为此,我们的对比损失包含了整个时间序列中的全局自相关性,这有助于以自监督的方式构建正负对。当与我们的分解网络相结合时,我们的对比学习显著提高了长期预测性能。大量的实验表明,我们的方法在9个长期基准的多个实验中优于14个基线模型,特别是在需要长时间输出预测的具有挑战性的场景中。源代码可在https://github.com/junwoopark92/Self-Supervised-Contrastive-Forecsating上获得。
1 介绍
时间序列数据是一个独特的挑战,因为它可能随着时间的推移积累无限的长度,使得一次处理所有这些数据是不可行的。为了解决这一问题,通常使用滑动窗口方法来将单个时间序列数据划分成较短的子序列(即窗口)。滑动窗口方法使模型不仅能够处理长时间序列,而且能够捕获窗口内过去和未来序列之间的局部相关性,从而产生准确的短期预测。基于Transformer的模型通过改进注意机制降低了使用长窗口的计算成本,基于CNN的模型在卷积运算中应用了膨胀,以学习更远的依赖关系,同时受益于其高效的计算成本。尽管这些模型取得了显著的进步,但它们在长期预测中的有效性仍然不确定。由于扩展窗口仍然短于总的时间序列长度,因此这些模型可能不学习比窗口长度更长的时间模式。
本文中,我们首先分析了现有的子序列训练模型的局限性(即,基于滑动窗口)用于长期预测任务。我们观察到,大多数时间序列通常包含长期变化,其周期长于传统的窗口长度。如果一个模型成功地捕捉到这些长期变化,我们预计两个遥远但相关的窗口的表示将比不相关的窗口更相似。
因此,我们提出了一种新的对比学习来帮助模型捕获跨不同窗口存在的长期依赖关系。我们的方法建立在这样一个事实上,即一个小批量可以包括时间上相距很远的窗口。它允许窗口之间的间隔跨越整个系列长度,这比窗口长度长得多。概括而言,我们工作的主要贡献如下:
- 我们的研究结果表明,现有的模型的长期性能较差,因为这些模型忽略了窗口以外的长期变化。
- 我们提出了AutoCon,这是一种新型的对比损失函数,通过以自我监督的方式在遥远的窗口中构建正负对来学习长期表示。
- 在9个数据集上进行的大量实验表明,与包括3种表示方法的14个并发模型相比,使用AutoCon训练的分解架构实现了高达34%的性能提升。
2 背景
2.1 时间序列预测的对比学习
受近期对比学习在计算机视觉领域取得的成功启发,时间序列分析中提出了许多方法。在对比学习中,如何构建正对对性能有很大影响,它们主要提出了诸如时间一致性、子序列一致性和上下文一致性等正对构建策略。然而,这些策略存在局限性,即只选择时间上相近的样本作为正样本,忽视了时间序列中的周期性。由于周期性,可能存在比正选样本更相似的负样本。最近,CoST试图通过频率域对比损失学习考虑周期性的表征,但由于它仍然使用窗口增强,因此无法考虑窗口长度以外的周期性。在时间序列学习框架中,我们关注的是批次中随机采样的序列在时间上可能相距甚远的事实。因此,我们提出了一种新的选择策略,不仅选择窗口内的局部正对,还选择批次中窗口之间的全局正对。
2.2 基于分解的模型的时间序列长期预测
时间序列分解是一种成熟的技术,涉及将时间序列分解为其各个组成部分,如趋势、季节性和剩余分量。通过将时间序列分解为这些组成部分,可以更容易地分析每个组成部分的行为并做出更具可解释性的预测。因此,基于分解的模型在时间序列预测中获得了欢迎,因为即使在复杂时间序列上进行训练,它们也能提供稳健和可解释的预测。最近,通过为每个趋势和季节性成分使用分解块和单个线性层展示了出色性能。然而,我们的分析表明,这些线性模型在捕获影响短期预测的高频成分方面很有效,但往往错过了严重影响长期预测的低频成分。因此,单一的线性模型可能足以进行短期预测,但对于长期预测来说是不够的。鉴于这一局限性,我们提出了一种包含具有不同容量层的模型架构,以考虑两个组件的独特性质。
3 本文方法
3.1 基于自相关的对比损失用于长期预测
(1) 窗口中缺少长期依赖项
对于一个实值离散时间过程 {St},我们可以使用以下公式求得其自相关函数 :
自相关函数衡量不同时间的观测之间的相关性(即,时滞h)。接近1或-1的强相关性表明序