A Comprehensive Survey of Deep Learning for Multivariate Time Series Forecasting: A Channel Strategy

本文链接：https://blog.csdn.net/qq_20466297/article/details/145806788

多变量时间序列预测中，多变量关系的处理。

CI(Channel Independence）
独立的处理每个通道，不考虑他们之间任何潜在的的相互关系和相互关联。每个通道 都被处理为独立的输入，不使用任何共享信息或依赖项。此外，CI策略提供了灵活性，因为添加新渠道不需要对模型架构进行更改，使其能够无缝适应不断发展的数据集。
典型的模型是PacthTst
CD (Channel Dependence)
将所有的通道考虑为统一的整体，假设他们之间相互依赖且相互关联。在预测过程中将它们视为一个统一的整体。
1、（Embedding fussion）
这些模型在获取其时间序列嵌入表示时融合了来自不同通道的数据。

2、 Explicit correlation
这些模型通常设计有专门的模块来显式地建模通道相关性，从而基于获取的时间序列嵌入表示进行更有结构的通道建模。代表性的算法包括 iTransformer [Liu et al., 2024b] 和 TSMixer [Ekambaram et al., 2023]。
***iTransformer 在通道之间采用自注意力模块，将独立的时间序列视为标记，并使用自注意力机制捕获多变量相关性。***相比之下，TSMixer 在通道之间使用多层感知器（MLP）模块来捕获通道之间的复杂相关性，这些相关性通过全连接层提取的多级特征来表示。

通道依赖的模型
use 1D or 2D convolutions to extract temporal representationss(时间表示)

Informer
Autoformer
TimesNet
上面的三种模型在卷积操作中，每个卷积核首先在每个输入通道内执行滑动卷积以获得相应的特征图。然后将所有通道的这些特征图进行加权和组合，捕捉通道间的依赖关系。

CP (Channel Partiality) 通道偏见
CP（频道偏见）意味着每个频道在保持一定程度的独立性的同时，也受到一些其他相关频道的影响。这种方法强调了一种混合状态，在这种状态下，通道选择性地相互作用并表现出部分相关性。

········基于每个通道的相关通道数量是固定的还是动态的，CP可以分为两大类。
········I) Fixed partial channels：这些模型为每个通道固定了相关通道的数量，这意味着相关通道的集合随时间保持不变。
例如，在MTGNN 中，通道关系被建模为一个K-正则图，其中每个通道使用CD策略与K个其他通道相互作用以建模相互依赖性，而其余通道则通过CI策略相互作用。
…II) Dynamic partial channels:这些模型允许每个通道的相关通道数量是动态的，随时间变化，并提供更大的灵活性以适应不同的场景。例如，DUET 使用频率域的度量学习计算通道相似性，然后稀疏化结果。另一个例子，CCM [陈等人，2024年]，基于通道的内在相似性动态地对通道进行聚类。为了有效地捕捉这些聚类中的潜在时间序列模式，CCM利用了一种聚类感知的前馈机制，使得每个单独的聚类都能得到定制化的管理和处理。
在这里插入图片描述
**

2、Mechanism Perspective（通道间关系的计算方式)

	 2.1.基于transformer

在这里插入图片描述

2.1.1. Naive Attention:(朴素注意力)
这些方法都采用了CD策略，处理时间序列片段（补丁）或整个序列的每个通道作为单独的标记，并直接应用注意力机制来建模通道相关性。
For instance, CARD [Wang et al., 2024b] and iTransformer [Liu etal., 2024b] represent the patches and series of each channel as independent tokens, respectively, and explicitly capture channel correlation using attention mechanisms.

2.1.2 Router Attention:
When the number of channels (N) is large, the computational complexity of channel attention reaches O(N2), resulting in high computational costs. To address this, some methods propose optimization strategies to mitigate the computational complexity caused by CD strategy. For example, Crossformer [Zhang and Yan, 2022] introduces a Router Mechanism for Naive Attention, which uses a small fixed number of c “routers" (c ≪ N) to gather information from all channels and redistribute it. This reduces the complexity to O(2cN) = O(N).

2.1.3 Frequency Attention:
一些CD方法表明，频域信息在捕捉通道间依赖性方面比时域信息更有效。例如，FECAM [江等人，2023年]将时间序列数据转换到频域，然后使用朴素注意力机制在这个领域建模通道间关系。

2.1.4 Mask Attention:
在朴素注意力机制中，每个通道都会与所有通道计算注意力分数，这可能会受到不相关通道的负面影响。为了减轻这种影响，掩码注意力提供了一种通过构建CP策略来避免不相关噪声的方法。例如，DUET [邱等人，2025] 为朴素注意力生成掩码矩阵，允许每个通道专注于那些对下游预测任务有益的，同时减轻噪声或不相关通道的影响。

掩码（Masking）的介绍：

2.2 基于mlp cnn
在这里插入图片描述

2.2.1 mlp
现有的基于MLP的模型采用CD方式的MLP混合，以捕捉通道间的复杂相关性。通过完全连接层提取的多层次特征来表示这些相关性。从通道策略的角度来看，MLP混合类别中的模型，例如TSMixer [Ekambaram等人，2023年]和Tiny-TTM [Ekambaram等人，2024年]，采用这种方法有效地捕捉所有通道之间的相关性，以较低的计算成本实现强大的性能，所有这些都属于CD策略。

2.2.2 CNN-based:
如图3所示，
所探讨的基于CNN的方法大致可以分类如下：
I) 合并：许多模型，例如Informer [周等人，2021]，Autoformer [吴等人，2021]，和FEDformer [周等人，2022]，在初始特征提取层中使用沿时间维度的1D卷积和滑动操作。这些模型将不同的通道视为卷积的不同输入，其特征随后在卷积过程中被加权和合并，从而实现通道间的交互。尽管TimesNet [吴等人，2023a]采用2D卷积，但它将时间维度折叠成2D格式，变量通道仍然作为独立输入通过卷积进行加权合并。这样的模型都采用CD策略。
II) 卷积：鉴于通道之间存在轻微的空间依赖性，ModerTCN [罗和王，2024]直接应用卷积操作以促进局部范围内通道间的信息交互。在同一卷积窗口内，通道通过卷积核以CD方式相互作用，而无法分配到同一窗口的通道彼此保持独立。这导致了一种高效的CP建模方法。

2.3 基于GNN
在这里插入图片描述
通过将时间序列沿时间分割成不同的窗口，在每个窗口内，将每个通道视为一个节点，通道之间的相关性视为边，多变量时间序列可以转换为基于图的数据。基于图神经网络（GNN）的方法可以分为密集图和稀疏图。在密集图中，每个节点通常与几乎所有其他节点相连，边通常表示相关性的强度或相关影响的概率。基于密集图的方法，例如 GTS [Shang 等人，2021] 和 FourierGNN [Yi 等人，2023]，通常遵循 CD 策略。相比之下，稀疏图只保留必要的边，大多数节点保持独立。例如，MTGNN [Wu 等人，2020] 为每个节点保留 K 条边，构建一个稀疏的 K 正则图。与此不同的是，MTSF-DG [Zhao 等人，2023] 通过基于预设阈值过滤掉低概率边来稀疏化邻接矩阵。基于稀疏图的方法属于 CP 策略。

2.3.1
…Simple Graph:一个简单的图是最基本的图模型，在每对节点之间最多只有一条边。为了有效的信息传递，需要一个明确的图结构。研究人员使用了通道相似性度量（MTGNN，MSGNet [Cai等人，2024年]，CrossGNN [Huang等人，2023a]） 以及数据相似度度量（GTS，WaveForM [Yang等人， 2023]）来学习多变量通道之间的相关图结构。他们利用时域（MTGNN、MS-GNet、CrossGNN、GTS）或频域（WaveForM）信息作为节点学习特征。基于图卷积的消息传递在简单图中得到应用，以促进通道间依赖信息的传输。

2.3.2
…Spatio-temporal Graph:
与简单的图形不同，时空图将不同时间步长的多个通道整合到一个单一的图形中，进一步考虑了不同时间步长下通道之间的关系。这种方法允许图神经网络（GNNs）同时建模时间和通道依赖性，有效地解决了时间模块与GNNs之间潜在的兼容性问题。时空图基础方法的主要挑战是解决图形构建和消息传递阶段的效率问题。例如，FourierGNN 使用全连接图构造，并采用傅里叶域卷积算子来实现时间复杂度为O(Nlog(N))。同样，FC-STGNN [Wang et al., 2024c] 采用相同的图构造方法，并使用移动池化卷积来实现相同的时间复杂度。
2.3.3
…Hyper Graph:
超图是图的一种扩展，它允许超边连接多个顶点，从而能够对更高阶的群体交互进行建模。基于超图的模型假设通道间的交互不是成对的，而是涉及多个通道之间的群体式交互。因此，基于超图的模型本质上适合构建CP策略。ReMo [Wu等人，2023b] 和 Ada-MSHyper 分别构建了多视图和多尺度超图，并在这些超图上设计了消息传递机制，以实现群体式的消息传播。值得注意的是，它们使用不同的多层感知器（MLPs）或聚类约束来促进群体间异质性的表达。

2.3.4
…Temporal Graph:
时间序列数据的相关性经常随时间变化，形成动态关系图。MTSF-DG 和 TPGNN [刘等，2022] 分别使用动态图和多项式图来模拟这些相关性变化模式。CP模型MTSF-DG结合了历史和未来的关系图，利用记忆网络和逻辑符号学习来捕捉历史相关性对未来相关性的影响。CD模型TPGNN将相关性矩阵表示为具有时间变化系数的矩阵多项式，以学习相关性演变模式。

2.4其他
除了上述提到的机制之外，一些模型提出了替代方法。例如：
I) CD模型SOFTS [韩等人，2024a] 引入了STAR模块，该模块采用集中式结构首先使用MLPs聚合所有通道的信息，然后将聚合的信息分发给每个通道。这种交互不仅减少了通道间交互的复杂性，还最小化了对单个通道质量的依赖。
II) CP模型LIFT [赵和沈，2024] 提出了一种新颖的插件，适用于所有MTSF特定模型，该插件能够高效地估计每个时间步的领先指标及其领先步骤。这种方法使得滞后通道能够利用预定义的一组领先指标中的先进信息。
III) C-LoRA [聂等人，2024] 引入了一种通道感知的低秩适应（C-LoRA）插件，该插件适用于所有MTSF特定模型。
它首先使用低秩分解适配器对每个通道进行参数化，以实现个性化处理。然后，基于序列信息对专门的通道适应进行条件化，形成一个具有身份意识的嵌入。此外，通过整合一个全局共享的CD模型来捕获跨通道的关系依赖。

3.通道之间相关性的不同特征：
在这里插入图片描述

为了更好地探索MTSF中的通道相关性，通常需要深入研究时间序列通道间相关性的不同特征。本节将解释当前方法中通常考虑的六个关键特征（图5）。

3.1
Asymmetry（不对称性）：不对称性指的是多变量时间序列中各通道之间的不平等关系，其中相互影响的程度在各通道中并不相同。另一方面，基于图神经网络（GNN）的方法通过非对称距离度量建立有向、加权图，允许交互边在不同的传播方向上具有不同的权重，如MTGNN [Wu et al., 2020]、MSGnet [Cai et al., 2024]等模型所示。

3.2
Lagginess（滞后性）：滞后性指的是某个通道的当前状态不仅仅依赖于其他通道的当前状态，还可能受到其他通道过去状态的影响。基于滞后性特征，VCformer [杨等人，2024] 在计算注意力矩阵时，结合了通道间多步延迟的联合效应。相比之下，FourierGNN [易等人，2023] 和 FC-STGNN [王等人，2024c] 直接使用时空全连接图在不同通道和时间步的表示之间进行消息传递。另一方面，LIFT [赵和沈，2024] 结合先验知识与神经网络预测来估计滞后步长。

3.3
Polarity（极性）：极性指的是在各通道间相互作用中正相关和负相关之间的区别。在建模过程中，区分这两种类型的相互作用非常重要，以避免混淆。交叉图神经网络（Cross-GNN）[黄等人，2023b]采用符号图方法，将相关性分类为正相关、负相关和中性关系。在消息传递过程中，它整合了正负信息交换，从而更有效地捕捉相关性的异质性。

3.4（group-wise)
群组化：群组化指的是一个现象，其中通道间的相关性表现出群组结构，其特征是同一群组内相关性强，不同群组间相关性弱，以及不同群组间相关性依赖关系的变化。CCM [陈等人，2024年] 和 DUET [邱等人，2025年] 使用聚类技术对通道进行分组以进行交互，而 ReMo [吴等人，2023b] 和 Ada-MSHyper [商等人，2024年] 通过超边建立群组内的消息传递。此外，CCM 和 ReMo 对不同群组内的特征提取应用不同的多层感知器（MLP），Ada-MSHyper 则基于损失函数对超边进行约束。这些不同的方法有助于表达不同群组之间的差异。

3.5
Dynamism(动态性)：在多变量时间序列中，不同时间步长的通道之间的相关性表现出不同的行为，显示出整体的动态变化。首先，基于MLP的方法（例如TimeMixer [Wang等人，2024a]，TTM [Ekambaram等人，2024]），其中权重在时间步长中保持不变，无法捕捉动态性。使用Transformer来考虑通道相关性的方法通常采用序列标记或补丁标记。基于序列标记的方法，例如iTransformer [Liu等人，2024b]和DUET [Qiu等人，2025]，无法捕捉动态性。然而，基于补丁标记的方法，例如Crossformer [Zhang和Yan，2022]，在不同的时间补丁上分配不同的注意力分数，使得可以建模动态性。在图神经网络（GNNs）中，只有那些图结构随时间变化的方法能够捕捉动态性。然而，上述用于建模动态性的方法仅考虑了不同时间步长下的不同通道关系。相比之下，MSTF-DG [赵等人，2023]、TPGNN [刘等人，2022] 和 ESG [叶等人，2022] 提出，在不同时间步长的通道关系之间存在直接的联系。例如，MSTF-DG 使用先前的通道关系直接推断当前的通道关系。

3.6
Muti-scale(多尺度)：多尺度指的是在不同时间尺度（如小时、分钟或秒）上，通道间的相关性表现出不同行为的现象。MSGNet [Cai等人，2024年] 和 Ada-MSHyper [Shang等人，2024年] 在不同尺度上建立了不同的图结构来描述不同层次的相关性变化，并且它们通过不同程度的交互实现了不同尺度相关性信息的融合。考虑相关性的多尺度异质性有助于模型更好地理解时间序列数据的多尺度特征，从而生成更准确的预测。

在这里插入图片描述