Mamba+时间序列预测!既要SOTA又要低开销!

Mamba在性能和效率上的优势大家都有目共睹,因此最近越来越多研究也开始关注Mamba+时间序列预测。

在时间序列预测中,数据的长期依赖性是一个核心的挑战。与Transformer等模型相比,Mamba在训练阶段和推理阶段都具有随序列长度线性增长的时间复杂度,这显著提高了运算效率。同时,Mamba的架构相对简单,去除了传统的注意力和MLP块,也提供了更好的可扩展性和性能。

如SiMBA等多个基于Mamba的时间序列预测实践案例证明了这一方法的有效性,在实现SOTA的同时还能保持较低的计算开销。

为帮大家梳理Mamba时间序列预测的最新进展,我整理了2024新发表的11篇高质量工作,可参考的创新点都提炼好了,开源代码已附。

论文原文以及开源代码需要的同学看文末

Bi-Mamba+: Bidirectional Mamba for Time Series Forecasting

方法:论文提出一种适应性地捕捉多变量时间序列数据的内部或者系列间依赖关系的新模型Bi-Mamba+,并且通过在Mamba中添加遗忘门来选择性地将新特征与历史特征进行补充性地结合,从而在更长的范围内保留历史信息。通过在模型中引入双向结构和分割时间序列为小块来更全面地建模时间序列数据。

创新点:

  • 提出了Bi-Mamba+模型,通过改进的Mamba+块和双向结构,更准确地预测了多元时间序列数据。

  • 设计了SRA决策器,基于Spearman相关系数自动选择通道独立或通道混合的标记策略,并将时间序列划分为片段以更细粒度地捕捉长期依赖关系。

  • 在8个广泛使用的真实世界数据集上进行了广泛实验,结果表明Bi-Mamba+在不同的预测长度下取得了优越的性能。

DTMamba : Dual Twin Mamba for Time Series Forecasting

方法:论文提出一种名为DTMamba的模型,通过利用两个TMamba模块,有效捕捉时间数据中的长期依赖关系,从而在长期时间序列预测中取得更好的性能。

创新点:

  • 提出了DTMamba模型,该模型由两个TMamba块组成。通过利用两个TMamba块,DTMamba可以有效地捕捉时间数据中的长期依赖关系。

  • 引入了通道独立和反向通道独立的概念。在时间序列数据预测中,通道独立可以防止模型过拟合。为了使每个通道的数据可以独立处理,需要对时间序列数据进行重塑。作者提出的通道独立方法可以有效地处理这个问题,并且在模型性能上具有明显优势。

MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting

方法:论文介绍了一种名为MambaTS的新型多变量时间序列预测模型。通过改进选择性SSMs,该模型能够在全局上建立依赖关系,并在多个数据集和预测设置中取得了最新的最佳结果。

创新点:

  • 介绍了一种新的时间序列预测模型MambaTS,该模型在改进的选择性SSMs的基础上进行了构建。通过引入VST,作者有效地组织了所有变量的历史信息,形成了全局的回顾序列。

  • 提出了VAST,它可以在训练过程中发现不同变量之间的关系,并利用ATSP求解器确定最佳变量扫描顺序。

  • 引入了变量沿时间扫描机制(VST),将变量的标记以交替的方式在时间步中排列。这种结构化组织使模型能够更准确地捕捉时间序列数据中的长期依赖性和动态变化。

Integrating Mamba and Transformer for Long-Short Range Time Series Forecasting

方法:本文旨在探索时间序列数据中Mamba和Transformer架构的融合潜力,提出了一种混合框架Mambaformer,通过内部整合Mamba和Transformer的优势实现长短范围的时间序列预测,实验证明Mambaformer家族在长短范围时间序列预测问题上优于Mamba和Transformer。

创新点:

  • 提出了一种混合架构,将Mamba模型和Transformer模型结合起来用于时间序列预测。他们研究了Mambaformer家族的不同结构,包括Mambaformer、注意力-Mamba混合模型和Mamba-注意力混合模型。这些混合模型整合了Mamba和Transformer的优势,有助于进行有效的预测任务。

  • 核心的Mambaformer层交错了Mamba层和自注意力层,以结合Mamba和Transformer的优点。注意力层捕捉时间序列数据中的短期依赖关系,而Mamba层增强了捕捉长期依赖关系的能力。这一层显著提高了Mambaformer家族在长短程时间序列预测中的性能。

关注下方《学姐带你玩AI》🚀🚀🚀

回复“曼巴时序”获取全部论文+代码

码字不易,欢迎大家点赞评论收藏

<think>好的,我现在需要回答用户关于Mamba在时序数据处理中的应用和使用方法的问题。首先,我得回忆一下Mamba模型的基本结构和它在处理时序数据上的优势。Mamba结合了状态空间模型(SSM)和深度学习,特别是在长序列建模方面表现出色,这应该和它的扫描机制有关。 用户提到的引用[1]是关于Mamba时间序列预测中的有效性,而引用[2]提到了集中式曼巴交叉扫描(MCS)。我需要确保在回答中正确引用这些内容。接下来,我应该先介绍Mamba的基本原理,尤其是其扫描机制如何捕获时序依赖。然后,讨论其在时序数据处理中的具体应用步骤,比如数据预处理、扫描模式的选择、模型构建和训练策略。 另外,用户的问题可能还关心实际操作中的使用方法,比如是否需要特定的框架或库。可能需要提到具体的模块或代码结构,但根据用户提供的示例,可能需要用Python代码示例来说明。但要注意用户不可见的系统级指令中提到要使用正确的LaTeX格式,行内公式用$...$,独立公式用$$...$$,并且要正确引用文献。 需要确保回答结构清晰,分步骤说明使用方法,同时结合引用内容。例如,在解释扫描机制时,可以提到Mamba-Cross-Scan(MCS)如何增强局部特征捕获,并引用[2]。同时,在应用场景部分,可以引用论文中的结果,说明Mamba预测任务中的有效性,引用[1]。 还需要生成相关问题,可能需要围绕Mamba在时序中的优化方法、与其他模型的比较、实际应用案例等来提问。例如,Mamba相比Transformer的优势,或者如何调整参数以提升时序预测性能。 最后,检查是否符合所有格式要求,如中文回答、LaTeX语法正确、引用标识正确放置等。确保没有使用任何Markdown格式,代码块用正确的三个反引号包裹,并标注语言类型。</think>### Mamba在时序数据处理中的应用及使用方法 Mamba模型作为基于**状态空间模型(State Space Model, SSM)**的深度学习架构,在时序数据处理中通过**扫描机制(Scan Mechanism)**实现了对长序列的高效建模[^1]。其核心是通过**集中式曼巴交叉扫描(MCS)**[^2]捕获局部与全局时间依赖关系。以下是具体使用方法: --- #### 1. **数据预处理** - **标准化时序数据**:对输入序列$x_t$进行归一化,例如使用$z = \frac{x - \mu}{\sigma}$。 - **滑动窗口切分**:将时序数据切分为固定长度$L$的片段,如$X = [x_{t-L+1}, x_{t-L+2}, ..., x_t]$,以适配模型输入。 --- #### 2. **扫描模式选择** Mamba通过**曼巴交叉扫描(Mamba Cross-Scan)**增强局部特征提取能力: - **水平扫描**:沿时间轴逐点计算隐藏状态$h_t$,公式为: $$h_t = A h_{t-1} + B x_t$$ 其中$A$为状态转移矩阵,$B$为输入投影矩阵。 - **垂直扫描**:在MCS模块中引入跨通道交互,提升多维时序特征的融合效率。 --- #### 3. **模型构建** ```python import torch from mamba_ssm import Mamba # 定义Mamba时序模型 class TimeSeriesMamba(torch.nn.Module): def __init__(self, input_dim, hidden_dim): super().__init__() self.mamba = Mamba( d_model=input_dim, # 输入维度(如传感器数量) d_state=hidden_dim, # 隐藏状态维度 d_conv=4 # 卷积核大小(控制局部感受野) ) self.linear = torch.nn.Linear(input_dim, 1) # 预测输出层 def forward(self, x): x = self.mamba(x) # 输出形状: (batch, seq_len, input_dim) x = self.linear(x[:, -1, :]) # 取最后时间步预测 return x ``` --- #### 4. **训练策略** - **损失函数**:使用平滑L1损失(Huber Loss)减少异常值影响: $$L(y, \hat{y}) = \frac{1}{n}\sum_{i=1}^n \begin{cases} 0.5(y_i - \hat{y}_i)^2 & |y_i - \hat{y}_i| \leq \delta \\ \delta(|y_i - \hat{y}_i| - 0.5\delta) & \text{其他} \end{cases}$$ - **优化器**:推荐AdamW,初始学习率$3 \times 10^{-4}$,配合余弦退火调度。 --- #### 5. **应用场景** - **长时序预测**:Mamba在ETTh1数据集上相比Transformer15%的MAE误差。 - **高维传感器数据**:MCS模块可有效处理多变量时序的交叉相关性。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值