本文介绍本组时间序列预测方向的最新工作:Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting。

论文链接:
https://arxiv.org/abs/2106.13008
论文作者:
吴海旭,徐介晖,王建民,龙明盛
引言
时间序列预测已经被广泛用于能源、交通、气象等众多领域。在实际应用中,尽可能延长预测时效是一个迫切的需求,如能源、交通的长期规划,和气象灾害的早期预警等。
因此,我们探索了长期时间序列预测问题:待预测的序列长度远远大于输入长度,即基于有限的信息预测更长远的未来。上述需求使得此预测问题极具挑战性,对于模型的预测能力及计算效率有着很强的要求。
分析
之前基于Transformer的时间序列预测模型,通过自注意力机制(self-attention)来捕捉时刻间的依赖,在时序预测上取得了一些进展。但是在长期序列预测中,仍存在不足:
长序列中的复杂时间模式使得注意力机制难以发现可靠的时序依赖。
基于Transformer的模型不得不使用稀疏形式的注意力机制来应对二次复杂度的问题,但造成了信息利用的瓶颈。

为突破上述问题,我们全面革新了Transformer,并提出了名为Autoformer的模型,主要包含以下创新:
突破将序列分解作为预处理的传统方法,提出深度分解架构(Decomposition Architecture),能够从复杂时间模式中分解出可预测性更强的组分。
基于随机过程理论,提出自相关机制(Auto-Correlation Mechanism),代替点向连接的注意力机制,实现序列级(series-wise)连接和 复杂度,打破信息利用瓶颈。
在长期预测问题中,Autoformer在能源、交通、经济、气象、疾病五大时序领域大幅超越之前SOTA,实现38% 的相对效果提升。
Autoformer
我们提出的Autoformer全面革新Transformer为深度分解架构,包括内部的序列分解单元、自相关机制以及对应的编-解码器。
深度分解架构

时间序列分解是指将时间序列分解为几个组分,每个组分表示一类潜在的时间模式,如周期项(seasonal),趋势项(trend-cyclical)。由于预测问题中未来的不可知性,通常先对过去序列进行分解,再分别预测。但这会造成预测结果受限于分解效果,并且忽视了未来各个组分之间的相互作用。
我们提出深度分解架构,将序列分解作为Autoformer的一个内部单元,嵌入到编-解码器中。在预测过程中,模型交替进行预测结果优化和序列分解,即从隐变量中逐步分离趋势项与周期项,实现渐进式分解。
序列分解单元(series decomposition block)基于滑动平均思想,平滑周期项、突出趋势项:其中,
为待分解的隐变量,
分别为趋势项和周期项,我们将上述公式记为。我们将上述序列分解单元嵌入Autoformer层间。
编码器: 在Encoder部分,我们逐步消除趋势项(这部分会在Deocder中通过累积得到),得到周期项
,
。而基于这种周期性,我们设计自相关机制,聚合不同周期的相似子过程,实现信息聚合:
解码器: 在Decoder部分,我们对趋势项与周期项分别建模。其中,对于周期项,自相关机制利用序列的周期性质,聚合不同周期中具有相似过程的子序列;对于趋势项,我们使用累积的方式,逐步从预测的隐变量中提取出趋势信息(最后一行):
基于上述渐进式分解架构,模型可以在预测过程中逐步分解隐变量,并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果,实现分解、预测结果优化的交替进行、相互促进。
自相关机制
我们提出自相关机制来实现高效的序列级连接,从而扩展信息效用。观察到,不同周期的相似相位之间通常表现出相似的子过程,我们利用这种序列固有的周期性来设计自相关机制,其中,包含基于周期的依赖发现(Period-based dependencies)和时延信息聚合(Time delay aggregation)。
基于周期的依赖发现: 基于随机过程理论,对于实离散时间过程 ,我们可以如下计算其自相关系数 :
其中,自相关系数 表示序列 与它的 延迟 之间的相似性。我们将这种时延相似性看作未归一化的周期估计的置信度,即周期长度为 的置信度为 。

时延信息聚合: 为了实现序列级连接,我们需要将相似的子序列信息进行聚合。我们这里依据估计出的周期长度,首先使用 操作进行信息对齐,再进行信息聚合,我们这里依然使用query、key、value的形式,从而可以无缝替代自注意力机制。

这里,我们挑选最有可能的 个周期长度,用于避免挑选到无关、甚至相反的相位。在Autoformer中,我们使用多头(multi-head)版本(图3)。

高效计算: 基于Wiener-Khinchin理论,自相关系数 可以使用快速傅立叶变换(FFT)得到,计算过程(图3)如下:

其中, 和 分别表示FFT和其逆变换。因此,自相关机制的复杂度为 。
对比分析: 相比于之前的注意力机制或者稀疏注意力机制,自注意力机制(Auto-Correlation Mechanism)实现了序列级的高效连接,从而可以更好的进行信息聚合,打破了信息利用瓶颈。

实验
我们在6个数据集上进行了模型验证,涵盖能源、交通、经济、气象、疾病五大领域。更多基准模型和结果请见论文。

Autoformer在所有数据集、各种输入-输出长度的设置下,取得了最优(SOTA)结果。
数据集 | 相比之前SOTA,MSE提升 |
---|---|
ETT | 74%(1.334 0.351) |
Electricity | 24%(0.280 0.213) |
Exchange | 64%(1.357 0.488) |
Traffic | 14%(0.733 0.634) |
Weather | 26%(0.455 0.335) |
ILI | 30%(4.583 3.227) |
其中,前五个数据集指标为输入96预测336设置,ILI数据集为输入24预测60设置。在上述6个数据集的设置下,Autoformer在MSE指标上平均提升38%。
对比实验
深度分解架构: 我们将提出的深度分解架构具有较好通用性,可以应用于其他基于Transformer的模型,均可以得到明显提升,且随着预测时效的延长,效果提升更明显。
我们也对比了深度分解架构和先分解再使用两个模型分别预测的方式,后者虽然有更多的参数、更大的模型,但是受限于前述原因,我们的深度分解依然优于预处理用法。

自相关机制 vs. 自注意力机制: 我们在众多输入-输出设置下,对比了自相关机制与各种自注意力机制,比如,经典Transformer中Full Attention,Informer中PropSparse Attention等。我们提出的自相关机制依然取得了最优的结果。

模型分析
渐进式分解效果: 随着序列分解单元的数量增加,模型的学到的趋势项会越来越接近数据真实结果,周期项可以更好的捕捉序列变化情况,这验证了渐进式分解的作用。

时序依赖可视化: 通过对比可以发现,Autoformer中自相关机制可以正确发掘出每个周期中的下降过程,并且没有误识别和漏识别,而自注意力机制存在错误和缺漏。

效率分析: 在显存占用和运行时间两个指标上,自相关机制均表现出了优秀的空间时间效率,两个层面均超过自注意力机制,表现出高效的 复杂度。

总结
针对长时序列预测中的复杂时间模式难以处理与运算效率高的问题,我们提出了基于深度分解架构和自相关机制的Autoformer模型。通过渐进式分解和序列级连接,大幅提高了长时预测效率。
同时,Autoformer在能源、交通、经济、气象、疾病五大主流领域均表现出了优秀的长时预测结果,模型具有良好的效果鲁棒性,具有很强的应用落地价值。
欢迎感兴趣的朋友阅读我们的论文查看更多细节内容。
#投 稿 通 道#
让你的文字被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。
???? 稿件基本要求:
• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注
• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题
• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算
???? 投稿通道:
• 投稿邮箱:hr@paperweekly.site
• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者
• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿
△长按添加PaperWeekly小编
????
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。