论文阅读：SageFormer Series-Aware Graph-Enhanced Transformers for Multivariate Time Series Forecasting-CSDN博客

本文链接：https://blog.csdn.net/qcmhzly/article/details/132509316

SageFormer: Series-Aware Graph-Enhanced Transformers for Multivariate Time Series Forecasting

SageFormer：用于多元时间序列预测的序列感知图增强型变压器

摘要

尽管深度学习方法（尤其是 Transformer）的最新进展已显示出希望，但在解决序列间依赖性的重要性方面仍然存在差距。

SageFormer，这是一种序列感知的图增强变换器模型，旨在利用图结构有效捕捉和模拟系列间的依赖关系。SageFormer 解决了两个关键难题：有效表示序列间的不同时间模式和减少序列间的冗余信息。重要的是，所提出的系列感知框架与现有的基于 Transformer 的模型实现了无缝集成，增强了它们为系列间依赖关系建模的能力

1 intro

多元时间序列预测的背景。在许多基于变换器的研究中，不同序列之间的依赖关系往往被忽视。这些模型通常通过线性变换将不同序列合并为隐式的时间嵌入。这些模型主要集中于时间依赖性，在很大程度上忽略了序列之间的相关关系。这里不是强调相关关系被忽略吗

一些研究[12, 13]发现，有意忽略序列间依赖关系的建模（独立于序列的框架，图 1c）可以改善预测结果，因为它对分布漂移具有鲁棒性[14]。然而，与序列无关的框架完全忽略了序列间的依赖关系，导致在特定数据集上出现次优结果。

所以本质还是和具体场景有关系

图1 三种序列依赖性建模的方法

（a）作者提出的方法，在原始输入标记进入 Transformer 编码器之前，加入了可学习的全局标记，以捕捉每个序列的内在特征。嵌入标记通过多个 SageFormer 层进行处理，其中的时间编码和图聚合是反复进行的。

globle token是怎么加的

（b）序列混合框架将每个时间戳的所有序列合并为一个标记向量。

©独立于系列的框架分别处理每个系列，从而提高了对不同系列的独特时间模式的学习能力。

本文研究了长期 MTS 预测问题中的序列间依赖关系。通过使用图结构学习时间序列之间的关系，我们的目标是使用全局标记来区分序列，并通过图聚合来提高对各种序列的不同时间模式的建模能力。SageFormer 可以作为基于 Transformer 结构的通用扩展，更好地利用序列之间的依赖关系，并在不大幅影响模型复杂性的情况下实现卓越性能。

解决的难题：

如何有效地表示序列间不同的时间模式？

引入了一种系列感知方法，通过在输入标记之前加入几个全局标记，扩展了现有的序列独立的框架。这些标记通过self_atta来捕捉每个变量的全局信息，并通过图聚合来促进系列互动。全局标记的加入使 SageFormer 不仅能学习单个序列的时间模式，还能关注序列之间的依赖关系，从而增强多样性并克服序列独立的局限性。

感知体现在哪个层面

如何避免序列间冗余信息的影响？

使用稀疏连接图结构来减少不相关序列中冗余信息的影响。(非全连接建图)为了评估模型在稀疏数据下的有效性，我们设计了具有不同序列数的低秩数据集。随着序列维度的增加，我们的模型性能保持稳定，有效地利用了低秩属性。相比之下，序列混合方法会随着序列维度的增加而出现预测效果下降的问题。

2 相关工作

多元时序预测

多变量时间序列预测模型一般可分为统计模型和深度模型。许多预测方法都是从向量自回归模型和向量自回归移动平均值等传统工具开始的是。深度模型在捕捉依赖性方面更优越。

用于 MTS 预测的变压器

著名的方法包括：Informer[7]，引入 ProbSparse 自注意和提炼技术；Autoformer[8]，纳入分解和自相关概念；FEDformer[9]，采用傅立叶增强结构；以及 Pyraformer[24]，实施金字塔注意模块。PatchTST [13] 将每个序列划分为补丁，并使用独立于序列的变换器来建立时间模式模型。虽然这些模型主要侧重于降低时间依赖性建模的复杂性，但它们往往忽略了重要的序列间依赖性。

MTS 预测的序列间依赖关系

LSTnet [4] 采用 CNN 处理序列间依赖关系，RNN 处理时间依赖关系。基于 GNN 的模型 [25, 26, 27, 28]，如 MTGNN [28]，利用时间和图卷积层来处理这两种依赖关系。STformer[29]将多变量时间序列扁平化为 Transformer 输入的一维序列，而 Crossformer[11]则采用维度分段嵌入和两级注意层，分别有效捕捉时间和序列间的依赖关系**。大多数基于 CNN 和 GNN 的模型都难以捕捉长期的时间依赖关系。。STformer [29] 和 Crossformer [11] 将一维注意力扩展到二维，但它们无法明确揭示序列间的关系。**

3 Methodology

3.1 问题定义

特征维度C，历史长度L,预测长度T，

MTS 中的不同序列被视为节点，序列间的关系用图邻接矩阵来描述。

3.2 overview

其整体架构采用符合系列感知框架的变换器编码器流水线。Transformer 的解码器部分被省略，取而代之的是一个线性解码器头（算法 1 中的 FlattenHead）

包括三个关键部分： (1) 系列感知全局标记，(2) 图形结构学习，以及 (3) 迭代信息传递。

3.3 序列感知的全局token

我们从自然语言模型（BERT）[21]VIT[31]中类标记的应用中汲取灵感，为每个系列预置可学习标记，以封装其相应的全局信息。我们使用这些全局标记而不是所有标记来捕捉序列间的依赖关系。

以PATCH TST为例，长为L按patch_size P拆为n×P,过投影变成n×D。在补码序列前添加 M 个可学习嵌入（全局标记）（D维）。代表每个序列在self-atta 后的全局信息，因此有效输入序列长度为 M + N。位置信息通过一维位置嵌入 Epos 得到增强。最终嵌入为 X (0) ∈ C×（N+M）×D

3.4 图结构学习

在 MTS 预测任务中，我们假设序列间的依赖关系是单向的（例如，电力负荷会影响油温，但反之亦然），因此学习到的图代表一种有向关系。

有向关系为什么会是反之亦然？

图2: SageFormer 中的迭代信息传递过程示意图。每一层都从图聚合开始，在这里，来自所有序列的全局标记被收集起来，并由多跳 GNN 组件（最左侧的矩形）进行处理。然后，经过图增强的全局标记被发送到其原始系列，并通过 TEB 进行编码。每个 TEB 的权重由所有系列共享。

公式：

Θ是c*c维的，可以理解成表述序列间相关关系的一个权重矩阵，E是序列的节点嵌入，是通过随机初始化的 E∈R N×C 来学习的，两者相乘后过一个非线性，可以理解为考虑依赖关系后的隐向量，计算邻接矩阵的非对称信息，表示单项依赖关系，取topk建立连边。

为什么用差值而非原值

3.5 迭代信息传递

SageFormer 编码器层对嵌入标记进行处理，并在其中反复进行时间编码和图形聚合。这种方法旨在将 GNN 阶段收集到的全局信息传播到每个系列中的所有标记中。因此，该模型通过迭代式信息传递捕捉到了序列间的依赖关系。

图聚合 图聚合阶段旨在将每个序列的信息与其相邻序列的信息进行融合，从而增强每个序列的相关模式。

对于第 l 层的每个序列，我们将前 M 个嵌入作为第 l 层的全局标记：G (l) i ← X (l) :i: ∈ R C×D，i ≤ M。第 l 层的全局标记从所有系列中收集起来，并传入 GNN 进行图聚合。为简单起见，我们采用与 [25, 28] 相同的模型进行图聚合：

公式 4 表示图上的多跳信息融合，其中 D 表示图聚合深度，˜A 是图拉普拉奇矩阵。每个嵌入点 G i 都被发送到其原始序列，然后与序列标记连接，得到图增强嵌入点X (l)

时态编码 经过图增强的嵌入随后可由任何 Transformer 组件处理。我们选择 vanilla Transformer 编码器[20]作为主干。TEB 的输出作为下一层编码的输入标记级嵌入。先前从 GNN 中聚合的信息通过自我关注传播给每个系列中的其他标记，从而获取相关系列的信息。与独立于系列的模型相比，这一过程增强了我们模型的表现力。

4 实验

LI 的过去序列长度设置为 36，其他设置为 96。均方误差（MSE）和平均绝对误差（MAE）作为评估指标。

SageFormer 在具有大量序列的数据集上显着优于其他深度模型

主要结果：我们的模型在每个数据集上都表现出了显着的改进，特别是与明确利用系列间依赖关系的模型相比。这表明我们提出的方法有效增强了模型捕获多个系列之间关系的能力。

框架通用性：

可以作为基于 Transformer 的架构的多功能扩展。通过利用图结构，它可以更好地利用各种序列之间的相互依赖关系，最终实现卓越的预测性能。

消融：

1）图聚合的影响

2）序列感知全局token的影响。

从每个编码器层删除图聚合模块会导致预测精度大幅下降。

图结构在系列较多的数据集中更能提高性能。

系列感知全局令牌提高了模型的预测准确性，同时减少了计算开销。如果所有代币（不仅仅是全局代币）都参与图传播计算，模型在 Traffic 和 ETTh1 数据集上的性能将分别下降 6.3% 和 1.6%。

最后，我们发现图构造中的稀疏约束和有向图等技术对于较大的数据集（例如流量）更有效。

应用稀疏约束可以减轻变量冗余对模型的影响，同时节省计算资源

4.4 超参数的影响

在本节中，我们研究四个超参数对我们提出的 SageFormer 模型的影响：全局令牌长度、图聚合深度、最近邻居的数量和编码器层的深度。

4.5 合成数据集

有向循环图数据集。

我们使用由 N=10 个节点组成的合成数据集研究 SageFormer 推断的邻接矩阵。每个序列值 xi,t 均从另一个序列 (i − 1 mod N) 中采样，时间滞后 τ = 10，从而生成邻接矩阵的有向循环图。

低秩数据集。

为了评估不同模型处理稀疏数据的有效性，我们设计了多个具有不同数量系列的低秩 MTS 数据集。受离散正弦变换的启发，我们生成任意信号作为不同正弦曲线与高斯噪声相结合的总和。相同的正弦曲线在不同的节点之间共享，从而创建低秩属性。

图 4c 展示了使用系列混合方法和我们的方法对具有不同系列数 (N) 的数据集的预测 MAE 结果。可以看出，系列混合方法的预测性能随着系列数量的增加而迅速恶化，因为它将所有系列信息编码为同一个令牌。相反，我们方法的 MAE 并没有随着系列数量的增长，表明我们设计的方法可以有效地利用数据集的低秩特征。

4.6 计算效率分析

较大的补丁长度 P 使其运行时间接近线性复杂度模型。

额外的 O(C 2 ) 复杂度是由于标准图卷积运算造成的，但存在将其降低到线性复杂度的技术

在解码器部分，由于线性解码器头的流线型设计，SageFormer的复杂度被简化为线性。

5 结论和未来工作

这是一种在长期多元时间序列 (MTS) 预测任务中对序列间依赖性进行建模的新方法。通过将图神经网络 (GNN) 与 Transformer 结构相结合，SageFormer 可以有效捕获不同的时间模式并利用不同序列之间的依赖关系。我们的模型通过广泛的实验展示了令人印象深刻的多功能性，在现实世界和合成数据集上提供了最先进的性能。因此，SageFormer 提出了一个有前途的解决方案来克服多元序列预测中的系列依赖性建模的局限性。

在涉及系列间依赖关系的其他领域中进一步发展和应用的潜力。

我们还承认我们工作的局限性，并简要描述了未来研究的潜在途径。虽然 SageFormer 在长期 MTS 预测中取得了卓越的性能，但它捕获的依赖关系并不严格代表因果关系。因此，由于时间序列的非平稳性质，一些依赖关系在实际场景中可能被证明是不可靠的。我们主要关注增强长期预测性能，这导致在某种程度上忽视了图结构的可解释性。展望未来，我们的工作的图神经网络组件可以得到改进，以学习变量之间的因果关系并降低其复杂性。