2021 NIPS 清华大学软件学院
1. 简介
本论文主要探索长期时间序列预测,该问题对于模型的预测能力及计算效率有着很强的要求。
1.1 动机
基于Transformer或self-attention机制的模型在长时间序列预测问题上取了很大的进展,但是目前长时间序列预测还存在以下难点和挑战:
- 长时间序列复杂的时序依赖关系导致模型很难直接学习到
- 由于self-attention机制的二次复杂度问题,导致模型效率较低,之前很多工作研究利用稀疏形式的注意力机制来改善该问题,虽然会带来效率的提升,但是也会导致信息的丢失,进而造成信息利用的瓶颈
1.2 论文工作和贡献
论文提出了Autoformer模型来解决上述问题,核心贡献包括
- 提出基于深度分解架构(Decomposition Architecture)的Autoformer模型,通过内置的分解模块来实现对时序的逐步分解
- 提出了Auto-Correlation机制来进行依赖捕获(dependencies discovery)和序列级别的信息聚合(information aggregation at the series level)。在计算效率和信息利用方面相对当前的self-attention家族均有提升。
- 在5个数据集上,相对6个基准模型取了38%的相对提升
2. 模型
2.1 分解架构Decomposition Architecture
论文将Transformer更新为深度分解架构(图1),包括内部序列分解模块、自相关机制以及相应的编码器和解码器。
序列分解模块 Series decomposition block
论文利用时序分解的思路将时间序列分解为趋势项和周期项两部分。由于未来的序列是不可知的,所以无法对未来序列进行分解,进而分开来预测。为了解决这个问题,本文提出使用移动平均moving average的方式来分解序列中的趋势项。
具体地,论文将序列分解模块作为模型结构中的一部分,嵌入到encoder-decoder中,在预测时依次多轮进行预测、分解,进而逐步分离趋势项和周期项,实现渐进式分解。
序列分解的描述如下,输入位长度为L的序列
X
∈
R
L
×
d
X \in R^{L \times d}
X∈RL×d
其中,
X
X
X为待分解的隐变量,
X
t
,
X
s
X_t, X_s
Xt,Xs分别为趋势项和周期项,上述公式合并写为
X
t
,
X
s
=
S
e
r
i
e
s
D
e
c
o
m
p
(
X
)
X_t, X_s = SeriesDecomp(X)
Xt,Xs=SeriesDecomp(X)
模型输入
encoder 输入为:
X
e
n
∈
R
I
×
d
X_{en} \in R^{I \times d}
Xen∈RI×d。decdoer输入包含了周期项
X
d
e
s
∈
R
(
I
/
2
+
O
)
×
d
X_{des} \in R^{(I/2 + O) \times d}
Xdes∈R(I/2+O)×d 和趋势项
X
d
e
t
∈
R
(
I
/
2
+
O
)
×
d
X_{det} \in R^{(I/2 + O) \times d}
Xdet∈R(I/2+O)×d,其中
I
/
2
I/2
I/2为输入序列
X
e
n
X_{en}
Xen的后半部分,O为填充的固定值,用来作为预测部分的占位符。
编码器
解码器
基于上述渐进式分解架构,模型可以在预测过程中逐步分解隐变量,并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果,实现分解、预测结果优化的交替进行、相互促进。
2.2 自相关机制 Auto-Correlation Mechanism
论文提出基于自相关机制来实现高效的序列级连接,从而扩展信息效用。不同周期的相似相位之间通常表现出相似的子过程,论文利用这种序列固有的周期性来设计自相关机制。
周期依赖 Period-based dependencies
基于随机过程理论,对于实离散时间过程
{
X
t
}
\{X_t\}
{Xt},可以如下计算其自相关系数:
R
x
x
(
τ
)
R_{xx}(\tau)
Rxx(τ)表示时延为
τ
\tau
τ 的时延相似度,可以将这种时延相似性看作未归一化的周期估计的置信度,即周期长度为
τ
\tau
τ 的置信度为
R
x
x
(
τ
)
R_{xx}(\tau)
Rxx(τ)
时间延迟聚合 Time delay aggregation
依据估计出的周期长度,首先使用Roll操作进行信息对齐,再进行信息聚合
Auto-Correlation vs. self-attention family
自相关机制(Auto-Correlation Mechanism)实现了序列级的高效连接,从而可以更好的进行信息聚合,打破了信息利用瓶颈。
3. 实验
3.1 Main Result
多变量时序预测
单变量时序预测
3.2 消融实验
分别对比了原始Transformer-based模型、先分解再使用两个模型分别预测的方式、以及论文提出的深度分解架构,论文架构效果均有明显提升。
自相关机制 vs. 自注意力机制
3.3 模型分析
时序分解效果
随着序列分解单元的数量增加,模型的学到的趋势项会越来越接近数据真实结果,周期项可以更好的捕捉序列变化情况,这验证了渐进式分解的作用。
依赖学习
通过对比可以发现,Autoformer中自相关机制可以正确发掘出每个周期中的下降过程,并且没有误识别和漏识别,而自注意力机制存在错误和缺漏。
复杂周期性建模 Complex seasonality modeling
效率分析
在存储占用和运行时间两个指标上,自相关机制均表现出了优秀的空间时间效率,两个层面均超过自注意力机制。