论文标题:
Inverted Transformers are Effective for Time Series Forecasting
论文作者:
Yong Liu , Tengge Hu , Haoran Zhang , Haixu Wu, Shiyu Wang, Lintao Ma, Mingsheng Long
导读: iTransformer是2024年时间序列预测领域的最新研究成果,目前在标准时间序列预测数据集上展现出最佳的性能(SOTA)。iTransformer的核心创新在于对经典Transformer架构的运用与转置设计。©️【深蓝AI】编译
1.方法引出
最近,线性预测模型蓬勃发展,导致修改基于transformer预测器架构的热情降低。如图1(上)所示,这些预测器利用transformer对时间序列的时间token进行全局依赖性建模,每个token由相同时间戳的多个变体组成。然而,由于性能下降和计算爆炸,transformer在预测具有较大回溯窗口的序列时面临挑战。此外,每个时间token的嵌入融合了代表潜在延迟事件和不同物理测量的多个变量,这可能无法学习以变量为中心的表征,并导致无意义的attention map。具体来说:
●同一时间点的点基本上代表了完全不同的物理意义,而这些点是由不一致的测量记录下来的,它们被嵌入到一个token中,多变量相关性被抹去了;
●由于同一时间点所代表的局部感受野和时间不一致事件过多,单个时间步形成的token难以揭示有益信息;
●即便序列变化会受到序列顺序的很大影响,在时间维度上没有适当地采用排列不变的attention机制;
因此,Transformer 在捕捉基本序列表征和刻画多变量相关性方面的能力较弱,限制了其对不同时间序列数据的处理能力和泛化能力。
图1|普通transformer(上)与提出的 iTransformer(下)之间的比较。Transformer 嵌入了时间token,其中包含每个时间步的多变量表示。iTransformer 将每个序列独立嵌入到变量token中,这样注意力模块就能描述多变量相关性,而前馈网络则能编码序列表征©️【深蓝AI】编译
在这项工作中,作者对 Transformer 组件的职责进行了反思,并在不对基本组件进行任何修改的情况下重新利用了 Transformer 架构。如图1(下)所示,本文提出的 iTransformer 只需在反转维度上应用attention和前馈网络。具体来说,单个序列的时间点被嵌入到变量token中,attention机制利用这些token来捕捉多变量相关性;同时,前馈网络应用于每个变量标记来学习非线性表示。通过实验, iTransformer 在多变量预测任务中实现了全面的SOTA。
图2|在多个数据集下的平均结果(MSE)©️【深蓝AI】编译
2.实现细节
在多变量时间序列预测中,给定历史观测数据 X = { x 1 , … , x T } ∈ T × N {\bf{X}} = \{ { {\bf{x}}_1}, \ldots ,{ {\bf{x}}_T}\} \in {^{T \times N}} X={ x1,…,xT}∈T×N,有 T T T个时间步长和 N N N个变量,预测未来 S S S个时间步长 Y = { x T + 1 , … , x T + S } ∈ S × N {\bf{Y}} = \{ { {\bf{x}}_{T + 1}}, \ldots ,{ {\bf{x}}_{T + S}}\} \in {^{S \times N}} Y={ xT+1,…,xT+S}∈S×N。为方便起见,将 X t , : { {\bf{X}}_{t,:}} Xt,:表示在第 t t t步同时记录的时间点, X : , n { {\bf{X}}_{:,n}} X:,n表示以 n n n为索引的每个变量的整个时间序列。值得注意的是,由于数据集中变量之间存在系统时滞, X t , : { {\bf{X}}_{t,:}} Xt,:可能不能反映在现实世界中的在某个时间点的同一事件。此外,