【论文精读】 | 用于时间序列预测的通道对齐坚固的混合Transformer


在这里插入图片描述

CARD: CHANNEL ALIGNED ROBUST BLEND TRANS
FORMER FOR TIME SERIES FORECASTING
标题: 卡片:用于时间序列预测的通道对齐坚固的混合Transformer
实验室环境:RTX 4090
文章链接:https://arxiv.org/abs/2305.12095

0、摘要

  • 最近的研究表明,Transformer 模型在时间序列预测方面具有强大的功能。导致 transformer 成功的关键因素之一是用于提高训练鲁棒性的通道无关 (CI) 策略。然而,对 CI 中不同渠道之间相关性的无知会限制模型的预测能力。在这项工作中,我们设计了一个特殊的 Transformer,即 Channel Aligned Robust Blend Transformer(简称 CARD),它解决了 CI 型 Transformer 在时间序列预测中的关键缺点。首先,CARD 引入了一种通道对齐的注意力结构使其能够捕获信号之间的时间相关性和多个变量随时间推移的动态依赖性。其次,为了有效地利用多尺度知识,我们设计了一个 token blend 模块来生成不同分辨率的 token。第三,我们引入了一个用于时间序列预测的稳健损失函数,以缓解潜在的过拟合问题。这个新的损失函数对基于预测不确定性在有限范围内进行预测的重要性进行了加权。我们对多个长期和短期预测数据集的评估表明,CARD 的性能明显优于最先进的时间序列预测方法。

1、介绍

  • 时间序列预测已成为云计算、空气质量预测、能源管理和交通流量估计等各个领域的关键任务 。深度学习模型的快速发展导致了时间序列预测技术的重大进步,尤其是在多变量时间序列预测方面。在为时间序列预测开发的各种深度学习模型中,基于 RNN、CNN、MLP、transformer 和 LLM 的模型由于能够捕获复杂的长期时间依赖关系而表现出出色的性能 。对于多变量时间序列预测,模型有望通过利用不同预测变量之间的依赖关系,即所谓的通道相关 (CD) 方法,从而产生更好的性能。然而,最近的多项工作表明,一般来说,通道无关 (CI) 预测模型(即所有时间序列变量都是独立预测的)优于 CD 模型。 分析表明,CI 预测模型更稳健,而 CD 模型具有更高的建模能力。鉴于时间序列预测通常涉及高噪声水平,采用 CD 设计的典型基于 transformer 的预测模型可能会遇到过拟合噪声的问题,从而导致性能受限。这些实证研究和分析提出了一个重要问题,即如何构建一个有效的转换器来利用跨通道信息进行时间序列预测

通道相关 (CD)
通道无关 (CI)

  • 在本文中,我们提出了一种通道对齐鲁棒混合转换器,简称 CARD,它有效地利用了通道之间的依赖关系(即预测变量),并缓解了时间序列预测中过拟合噪声的问题。与时间序列的典型变压器不同,分析仅通过对标记的关注来捕获信号之间的时间依赖性,CARD 还跨不同渠道和隐藏维度进行关注,从而捕获预测变量之间的相关性并对齐每个标记内的局部信息。我们观察到相关方法已在计算机视觉中得到开发 。此外,众所周知,多尺度信息在时间序列分析中起着重要作用。我们设计了一个 token blend 模块来生成不同分辨率的 token。特别是,我们建议将同一头部内的相邻 token 合并到新 token 中,而不是在多头注意力中合并不同头部的相同位置。为了提高 transformer 对时间序列预测的鲁棒性和效率,我们在 queries/keys tokens 上进一步引入了一个指数平滑层和一个动态投影模块,当处理不同通道之间的信息时。最后,为了缓解过拟合噪声的问题,在有限范围内进行预测的情况下,引入了一个稳健的损失函数,以根据其不确定性对每个预测进行加权。整个模型架构如图 1 所示。我们通过与 Transformers 和其他模型的最新方法进行比较,验证了所提出的模型在各种数值基准上的有效性。在这里,我们总结了我们的主要贡献如下。
  • Crossformer 中使用的层次结构。这些设计显著提高了 CARD 的稳健性,并导致数值性能的大幅提高

在这里插入图片描述


  1. 我们提出了一种通道对齐鲁棒混合变压器 (CARD),它可以高效、稳健地对齐不同通道之间的信息并利用多尺度信息。
  2. CARD在用于预测和其他基于预测的任务的多个基准数据集中表现出卓越的性能,优于最先进的模型。我们的研究证实了所提出的模型的有效性。
  3. 我们开发了一个强大的基于信号衰减的损失函数,它利用信号衰减来增强模型专注于预测不久的将来的能力。我们的实证评估证实,这种损失函数也有效地提高了其他基准模型的性能

  • 本文的其余部分结构如下。
  • 在第 2 节中,我们提供了与我们的研究相关的相关工作的摘要。
  • 第 3 节介绍了拟议的详细模型架构。
  • 第 4 节描述了损失函数设计,并通过高斯分布和拉普拉斯分布的最大似然估计进行了理论解释。
  • 在第 5 节中,我们展示了预测基准的数值实验结果,并进行了综合分析,以确定自我注意方案对时间序列预测的有效性。此外,我们还讨论了本研究中进行的消融和其他实验。
  • 最后,在第 6 节中,讨论了结论和未来的研究方向

2、相关工作

2.1 用于时间序列预测的Transformers

  • 近年来,有大量工作试图应用 Transformer 模型来预测长期时间序列 。我们在这里总结了其中的一些。Log Trans 使用具有 Log Sparse 设计的卷积自注意力层来捕获局部信息并降低空间复杂性。Informer 提出了一种带有蒸馏技术的 Prob Sparse 自我注意,以有效地提取最重要的键。Auto former从传统的时间序列分析方法中借用了分解和自相关的思想。FED former 使用傅里叶增强结构来获得线性复杂性。Pyra former 应用了具有尺度间和尺度内连接的金字塔注意力模块,这也获得了线性复杂性。Log Trans 避免了 key 和 query 之间的逐点点积,但其值仍然基于单个时间步。Auto former 使用自相关来获得 patch 级连接,但它是一种手工制作的设计,不包含 patch 中的所有语义信息。最近的一项工作 Patch TST 使用视觉变压器类型模型进行长期预测,采用独立于通道的设计。最接近我们提出的方法的工作是Crossformer 。这项工作利用层次结构注意力机制设计了一个编码器-解码器模型,以利用跨维度依赖关系,并在我们在这项工作中使用的相同基准数据集中实现了中等性能。从模型架构的角度来看,与 Crossformer 不同,我们采用纯编码器结构,多尺度信息通过轻量级 token blend 模块诱导,而不是显式生成 toke

2.2 用于时间序列预测的 RNN、MLP 和 CNN 模型

  • 除了Transformer,其他类型的网络也被广泛探索。 研究 RNN状态空间模型。特别是,(Smyl,2020 年)考虑为 RNN 配备指数平滑度,并首次在预测任务中击败了统计模型 。 探索了用于时间序列预测的 MLP 型结构。CNN 模型 使用时间卷积层来提取子序列级别的信息。在处理多变量预测任务时,假设相邻协变量的平滑度或使用通道无关策略。

3、模型结构

在这里插入图片描述

  • CARD 的架构图示如图 1 所示。设 a t ∈ R C a_t∈ R^C atRC 是通道 C ≥ 1 的时间序列在时间 t 的观测值。我们的目标是使用 L 个最近的历史数据点(例如, a t − L + 1 , . . . , a t a_{t−L+1},...,a_t atL+1,...,at)来预测未来的 T 步观察值。(例如, a t + 1 , . . . , a t + T _{at+1},...,a_{t+T} at+1,...,at+T),其中 L,T ≥ 1。

3.1 令牌化

  • 我们采用了修补的想法 将输入的时间序列转换为标记张量。让我们将 A = [ a t − L + 1 , . . . , a t ] ∈ R C × L A =[a_{t−L+1},...,a_t] ∈ R^{C× L} A=[atL+1,...,at]RC×L表示为输入数据矩阵,S 和 P 分别表示步幅和补丁长度。我们将矩阵 A 展开为原始标记张量 X ^ ∈ R C × N × P \hat X ∈R^{C×N×P} X^RC×N×P,其中 N = ⌊(L−P)/S +1⌋。在这里,我们将时间序列转换为几个 P 长度的片段,每个原始 token 都保留了一部分序列级语义信息,这使得注意力方案比原版的逐点对应物更有效。

  • 然后,我们使用密集的 MLP 层 F1 : P → d,额外的 toke

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值