【论文阅读】 CMAMBA: CHANNEL CORRELATION ENHANCED STATE SPACE MODELS FOR MULTIVARIATE TIME SERIES FORECA


本文并非逐句翻译,添加个人理解与疑惑,如有需要,请自行阅读原文

在这里插入图片描述

CMAMBA: CHANNEL CORRELATION ENHANCED STATE SPACE MODELS FOR MULTIVARIATE TIME SERIES FORECASTING

标题: CMAMBA:用于多变量时间序列预测的通道相关性增强状态空间模型

实验环境:NVIDIA GeForce RTX 4090
代码地址:https://github.com/zclzcl0223/CMamba

0、Abstract

  • 基于线性、基于 Transformer 和基于卷积的模型推动了多变量时间序列预测的最新进展,基于 Transformer 的架构因其在时间和跨通道混合方面的功效而越来越突出。最近,状态空间模型 Mamba 出现了,具有强大的序列和特征混合功能。然而,原版 Mamba 设计对时间序列预测的适用性仍然是一个悬而未决的问题,特别是因为它对跨通道依赖关系的处理不充分。捕获跨通道依赖关系对于提高多变量时间序列预测的性能至关重要。最近的研究结果表明,自注意机制擅长捕获跨通道依赖关系,而其他更简单的机制(如 MLP)可能会降低模型性能。这是违反直觉的,因为 MLP 作为一种可学习的架构,理论上应该同时捕获相关性和不相关性,从而可能导致中性或改进的性能。深入研究自我注意机制,我们将观察到的 MLP 性能下降归因于其缺乏数据依赖性和全局感受野,这导致 MLP 缺乏泛化能力。考虑到 Mamba 强大的序列建模能力和 MLP 的高效率,两者的结合是解决多元时间序列预测的有效策略。基于上述见解,我们引入了一个为时间序列预测量身定制的优化 Mamba 变体。我们提出的模型 CMamba 结合了一个改进的 Mamba (M-Mamba) 模块用于时间依赖性建模,一个全局数据依赖性 MLP (GDD-MLP) 来有效捕获跨通道依赖性,以及一个通道混合机制来减少过拟合。在 7 个真实数据集上进行的综合实验证明了我们的模型在提高预测性能方面的有效性。

1、Introduction

  • 多元时间序列预报 (MTSF) 在各种应用中起着至关重要的作用,例如天气预报(Chen et al., 2023)、交通管理(Liu et al., 2023b;c)、经济学(Xu & Cohen,2018)和事件预测(Xue et al., 2023)。MTSF 旨在根据历史观测预测时间变化的未来值。鉴于其实际重要性,近年来开发了许多深度学习模型,特别是基于线性的深度学习模型(Zeng et al., 2023;Li et al., 2023;Das 等人,2023 年;Wang et al., 2023), 基于变压器 (周 et al., 2022;Zhang & Yan, 2022;Wu et al., 2021;Nie et al., 2022;Liu et al., 2023a) 和基于卷积 (Liu et al., 2022;Wang et al., 2022;Wu et al., 2022;Luo & Wang, 2024)模型,这些模型已经显示出显著的进步。 其中,基于 Transformer 的模型特别突出的是它们能够使用 MLP 或自我注意等机制分别混合时间嵌入和通道嵌入。最近引入的Mamba模型(Gu&Dao,2023)在状态空间框架内运行,表现出显著的序列和特征混合能力。曼巴没有表现出进步不仅在自然语言处理方面,而且在其他领域,包括计算机视觉(Liu et al., 2024;Zhu et al., 2024) 和基于图的应用 (Wang et al., 2024a)。然而,就时间序列预测中的跨时间依赖性建模而言,Mamba 中的每个组件是否对性能做出贡献仍然是一个值得讨论的问题(Wang et al., 2024d;胡 et al., 2024),更不用说它缺乏跨通道依赖建模能力了。

  • 捕获跨通道依赖关系对于提高多变量时间序列预测的性能至关重要。最近的研究结果(Liu et al., 2023a)表明,自我注意在捕获跨渠道依赖性方面表现出色。生成的模型 iTransformer 在多个数据集上实现了出色的性能。然而,作为 Transformer 的另一个重要组成部分,使用 MLP 对跨通道依赖关系进行建模会降低模型性能(Liu et al., 2023a;Nie et al., 2022)。作为一种轻量级且可学习的架构,MLP 应该是捕获跨渠道依赖关系的理想结构,因为它理论上可以捕获相关性和不相关性,从而实现中性或改进的性能。

  • 在 iTransformer 的设计中,跨通道依赖关系以数据依赖和全局的方式捕获。即每个通道都以其历史序列为特征,自注意力机制根据数据自适应地捕获通道之间的依赖关系相比之下,对于原始 MLP 中的不同输入,通道混合的参数是相同的此外,由于每个时间点的数据在训练过程中都是独立混合的,因此该模型过于关注通道之间的局部依赖关系,而忽略了全局依赖关系。缺乏数据依赖性和全局感受野,这对于在真实世界数据中观察到的复杂、长期的依赖性至关重要,导致 MLP 和自我注意之间的差异。为了验证我们的主张,我们在图 1 中的 ETT 数据集中描述了两个变量(通道)随时间变化的曲线。

在这里插入图片描述
我们发现:(i) 尽管存在波动,但这两个变量之间的关系在很长一段时间内保持稳定,即 MULL (Middle UseLess Load) 大致相当于 HULL (High UseLess Load) 的一半。(ii) 这种关系在不同时期可能会有所不同。上述观察结果表明,多元时间序列在不同时期具有相对稳定的长期通道依赖关系。因此,数据依赖型全局通道建模方法更适合捕获跨通道依赖关系

  • 基于上述动机,我们提出了对 Mamba 的增强,用于多变量时间序列预测,结合改进的 Mamba (M-Mamba) 模块进行时间依赖性建模,并结合全局数据依赖性 MLP (GDD-MLP) 来更有效地建模通道依赖性。GDD-MLP 赋予了原始 MLP 数据依赖性和全局感受野的优势。使用 Electricity 数据集的案例研究,我们将 GDD-MLP 的性能与传统 MLP 进行了比较结果表明 GDD-MLP 显著提高了预测准确性。如图 2 所示,我们简单地使用一个实例范数的线性层,即 RLinear (Li et al., 2023) 作为主干,并在线性层之前将通道与 GDD-MLP 或 MLP 混合。

在这里插入图片描述

  • 此外,为了缓解与通道相关 (CD) 模型相关的过拟合和泛化问题(Han et al., 2023),我们引入了通道混淆策略。这种方法在训练过程中线性地组合通道,以创建虚拟通道,这些通道集成了来自多个通道的特征,同时保留了它们共享的时间依赖关系,这有望提高模型的泛化性。 总之,我们通过评估 Mamba 组件的有效性并为其配备通道混合功能,使 Mamba 适应多变量时间序列预测。生成的模型 CMamba 利用跨时间和跨通道依赖关系,在 7 个实际数据集中实现了一致的一流性能。从技术上讲,我们的主要贡献总结如下:• 我们为多变量时间序列预测定制了原版 Mamba 模块。提出了一个改进的 Mamba (M-Mamba) 模块,以实现更好的跨时间依赖关系建模。 • 我们使 Mamba 能够使用提出的全局数据依赖性 MLP (GDD-MLP) 和通道混淆来捕获多元相关性。结合 M-Mamba 模块,所提出的 CMamba 可以捕获跨时间和跨通道的依赖关系,以学习更好的多变量时间序列预测表示。 • 对 7 个实际基准的实验表明,我们提出的框架实现了卓越的性能。我们将提出的 GDD-MLP 和 Channel Mixup 广泛应用于其他模型。预测性能的提高表明我们的框架具有广泛的多功能性。

2、Related work

2.1 用于序列建模的状态空间模型

  • 传统的状态空间模型 (SSM),例如隐藏马尔可夫模型和递归神经网络 (RNN),通过将消息存储在隐藏状态中并使用这些状态和当前输入来更新输出来处理序列。这种反复出现的机制限制了他们的训练效率,并导致了梯度消失和爆炸等问题(Hochreiter & Schmidhuber, 1997)。最近,已经提出了几种具有线性时间复杂度的 SSM,包括 S4(Gu et al., 2021)、H3(Fu et al., 2022)和 Mamba(Gu & Dao,2023)。其中,Mamba 通过引入平衡短期和长期依赖关系的数据依赖性选择机制,进一步增强了 S4。Mamba 已经展示了强大的长序列建模能力,并已成功扩展到视觉领域(Liu et al., 2024;Zhu et al., 2024)和图域(Wang et al., 2024a),而时间序列域仍需要更多探索。

2.2 MTSF 中的通道策略

  • 通道策略是确定如何处理多变量时间序列预测 (MTSF) 中变量之间关系的基础。从广义上讲,有两种主要方法:通道无关 (CI) 策略,它忽略了跨通道的依赖关系,以及 Channel Dependent 通道依赖(CD) 策略,它根据特定机制集成通道。每种策略都有其各自的优点和缺点。CD 方法提供了更大的表示能力,但在面对时间序列数据的分布变化时往往不那么稳健,而 CI 方法牺牲了能力以获得更稳定、更稳健的预测(Han et al., 2023)大量最先进的模型都遵循 CI 策略。这些模型(Zeng等人,2023 年;Nie et al., 2022;Wang et al., 2023)将多变量时间序列视为独立单变量时间序列的集合,并简单地将不同的通道视为不同的训练样本。然而,最近的工作已经证明了通过自我注意(Liu et al., 2023a)和卷积(Luo & Wang, 2024)等机制明确捕捉多元相关性的有效性。这些方法取得了强有力的实证结果,强调了跨通道依赖建模在 MTSF 中的重要性。尽管取得了这些进步,但仍需要更有效和高效的机制来捕获和建模跨通道依赖关系。

2.3 泛化性的 MIXUP

  • MIXUP 是一种广泛用于视觉的有效数据增强技术(Zhang et al., 2017;Yun et al., 2019;Verma等人,2019 年)、自然语言处理(Guo 等人,2019 年;Sun et al., 2020),以及最近的时间序列分析(周 et al., 2023;Ansari et al., 2024)。原版 mixup 技术通过线性插值随机混合两个输入数据样本。它的变体通过混合 input 样本或隐藏嵌入来扩展这一点,以获得更好的泛化。在多变量时间序列中,每个样本都包含多个时间序列。因此,我们提出的 Channel Mixup 不是混合两个样本,而是混合同一样本的时间序列。这种策略不仅增强了模型的泛化,还促进了 CD 方法。

3、Preliminary

3.1 多变量时间序列预测

  • 在多变量时间序列预测中,我们得到一个历史时间序列 X = {x1, …, xL} ∈ RL×V,回溯窗口为 L,通道数为 V。目标是预测 T 未来值 Y = {xL+1, …, xL+T } ∈ RT ×V .在以下部分中,我们将 Xt表示为时间步 t 上所有通道的值,将 X:,v 表示为由 v 索引的通道的整个序列。相同的注释也适用于 Y。在本文中,我们重点介绍了预测长度大于或等于 96 的长期时间序列预测任务。

h ′ ( t ) = A h ( t ) + B x ( ^ t ) , ( t ) = C h ( t ) + D ⋅ x ( ^ t ) , h'(t)=Ah(t)+Bx\hat(t), (t)=Ch(t)+D·x\hat(t), h(t)=Ah(t)+Bx(^t),(t)=Ch(t)+Dx(<

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值