最新研究iTransformer: Transformer不适合多变量时序预测？

最新推荐文章于 2025-02-12 10:00:00 发布

深蓝学院

最新推荐文章于 2025-02-12 10:00:00 发布

阅读量2.7k

点赞数 29

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/soaring_casia/article/details/136251188

版权

本文介绍了一种新的时间序列预测模型iTransformer，它通过反转Transformer架构并专注于多变量相关性，实现了在标准数据集上的SOTA性能。iTransformer通过独立处理变量token和自注意力机制，解决了Transformer在处理大回溯窗口和复杂多变量序列时的挑战。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

论文标题：

Inverted Transformers are Effective for Time Series Forecasting

论文作者：

Yong Liu , Tengge Hu , Haoran Zhang , Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long

导读： iTransformer是2024年时间序列预测领域的最新研究成果，目前在标准时间序列预测数据集上展现出最佳的性能（SOTA）。iTransformer的核心创新在于对经典Transformer架构的运用与转置设计。©️【深蓝AI】编译

1.方法引出

最近，线性预测模型蓬勃发展，导致修改基于transformer预测器架构的热情降低。如图1（上）所示，这些预测器利用transformer对时间序列的时间token进行全局依赖性建模，每个token由相同时间戳的多个变体组成。然而，由于性能下降和计算爆炸，transformer在预测具有较大回溯窗口的序列时面临挑战。此外，每个时间token的嵌入融合了代表潜在延迟事件和不同物理测量的多个变量，这可能无法学习以变量为中心的表征，并导致无意义的attention map。具体来说：

●同一时间点的点基本上代表了完全不同的物理意义，而这些点是由不一致的测量记录下来的，它们被嵌入到一个token中，多变量相关性被抹去了；

●由于同一时间点所代表的局部感受野和时间不一致事件过多，单个时间步形成的token难以揭示有益信息；

●即便序列变化会受到序列顺序的很大影响，在时间维度上没有适当地采用排列不变的attention机制；

因此，Transformer 在捕捉基本序列表征和刻画多变量相关性方面的能力较弱，限制了其对不同时间序列数据的处理能力和泛化能力。

在这里插入图片描述
图1｜普通transformer（上）与提出的 iTransformer（下）之间的比较。Transformer 嵌入了时间token，其中包含每个时间步的多变量表示。iTransformer 将每个序列独立嵌入到变量token中，这样注意力模块就能描述多变量相关性，而前馈网络则能编码序列表征©️【深蓝AI】编译

在这项工作中，作者对 Transformer 组件的职责进行了反思，并在不对基本组件进行任何修改的情况下重新利用了 Transformer 架构。如图1（下）所示，本文提出的 iTransformer 只需在反转维度上应用attention和前馈网络。具体来说，单个序列的时间点被嵌入到变量token中，attention机制利用这些token来捕捉多变量相关性；同时，前馈网络应用于每个变量标记来学习非线性表示。通过实验， iTransformer 在多变量预测任务中实现了全面的SOTA。

2.实现细节

在多变量时间序列预测中，给定历史观测数据 ${\bf{X}} = \{ { {\bf{x}}_1}, \ldots ,{ {\bf{x}}_T}\} \in {^{T \times N}}$ ，有 $T$ 个时间步长和 $N$ 个变量，预测未来 $S$ 个时间步长 ${\bf{Y}} = \{ { {\bf{x}}_{T + 1}}, \ldots ,{ {\bf{x}}_{T + S}}\} \in {^{S \times N}}$ 。为方便起见，将 ${\bf{X}}_{t,:}}$ 表示在第 $t$ 步同时记录的时间点， ${\bf{X}}_{:,n}}$ 表示以 $n$ 为索引的每个变量的整个时间序列。值得注意的是，由于数据集中变量之间存在系统时滞， ${\bf{X}}_{t,:}}$ 可能不能反映在现实世界中的在某个时间点的同一事件。此外，

最低0.47元/天解锁文章