论文地址:https://arxiv.org/abs/2205.13504
论文代码:https://github.com/cure-lab/LTSF-Linear
1. 简介
论文提出了使用简单的线性模型来进行时间序列预测,效果超过了Transformer-based SOTA模型效果。
长时序预测(LTSF)领域最近出现了很多Transformer-based 模型,由于Transformer是基于自注意力机制来有效提取长序列中成对元素之间的语义相关性的,在一定程度上具有permutation-invariant和anti-ordering的性质。而对于时间序列建模,主要是提取一系列有序且连续的点的时间相关性,因此顺序往往很重要。虽然通过位置编码和子序列嵌入等方法可以一定程度上保留输入序列的顺序信息,但是由于self-attetion机制的permutation-invariant和anti-ordering性质,不可避免的带来了时间信息的损失。
本论文引入了名为LTSF-Linear的简单的线性模型来直接进行多步预测。
2. Transformer-Based LTSF Solutions
3. LTSF-Linear模型
目前Transformer-based模型在实验时,对比的模型基本都是IMS(iterated multi-step)模型,而自回归模型有严重的误差累计的问题。论文作者猜想这些模型的效果提升可能主要是DMS(direct multi-step)策略带来的。
为了验证上述猜想,作者提出了使用最简单的DMS模型,即只用Linear层来作为评估的baseline模型,命名为LTSF-Linear。该模型将输入直接映射到输出,如图2所示。模型的操作可以用下面的数学表达式描述,其中
X
i
X_i
Xi为多变量输入中第i个变量,
X
^
i
\hat X_i
X^i为第i个变量对应的输出,
W
∈
R
T
×
L
W \in R^{T \times L}
W∈RT×L,
T
T
T为预测时间步,
L
L
L为历史数据窗口长度。
X
^
i
=
W
X
i
\hat X_i = WX_i
X^i=WXi
注意:LTSF-Linear 中不同变量共享权重
W
W
W。
LTSF-Linear模型是一系列模型
Vanilla Linear
单层线性模型
DLinear
DLinear使用了Autoformer和FEDformer中分解(Decomposition)机制的组合。首先将原始输入分解为趋势部分和周期部分,然后使用两个单层线性层分别拟合这两部分,然后将结果相加作为最后的结果。通过显式的处理趋势,DLinear相对Vanilla Linear,对于有明确趋势变化的数据有更好的效果。
NLinear
当数据集存在分布漂移(distribution shift)时,NLinear将当前输入减去上一时刻的值,然后经过一个线性层,然后在做最终的预测前将减去的部分加回来。对数据的加减是对输入序列的一种简单标准化(normalizaiton)
实验
LTSF-Linear效果超过了SOTA模型FEDformer 20% ~ 50%