【论文阅读】2021-NIPS Autoformer

在这里插入图片描述
2021 NIPS 清华大学软件学院

1. 简介

本论文主要探索长期时间序列预测,该问题对于模型的预测能力及计算效率有着很强的要求。

1.1 动机

基于Transformer或self-attention机制的模型在长时间序列预测问题上取了很大的进展,但是目前长时间序列预测还存在以下难点和挑战:

  • 长时间序列复杂的时序依赖关系导致模型很难直接学习到
  • 由于self-attention机制的二次复杂度问题,导致模型效率较低,之前很多工作研究利用稀疏形式的注意力机制来改善该问题,虽然会带来效率的提升,但是也会导致信息的丢失,进而造成信息利用的瓶颈

1.2 论文工作和贡献

论文提出了Autoformer模型来解决上述问题,核心贡献包括

  • 提出基于深度分解架构(Decomposition Architecture)的Autoformer模型,通过内置的分解模块来实现对时序的逐步分解
  • 提出了Auto-Correlation机制来进行依赖捕获(dependencies discovery)和序列级别的信息聚合(information aggregation at the series level)。在计算效率和信息利用方面相对当前的self-attention家族均有提升。
  • 在5个数据集上,相对6个基准模型取了38%的相对提升

2. 模型

在这里插入图片描述

2.1 分解架构Decomposition Architecture

论文将Transformer更新为深度分解架构(图1),包括内部序列分解模块、自相关机制以及相应的编码器和解码器。

序列分解模块 Series decomposition block

论文利用时序分解的思路将时间序列分解为趋势项和周期项两部分。由于未来的序列是不可知的,所以无法对未来序列进行分解,进而分开来预测。为了解决这个问题,本文提出使用移动平均moving average的方式来分解序列中的趋势项。

具体地,论文将序列分解模块作为模型结构中的一部分,嵌入到encoder-decoder中,在预测时依次多轮进行预测、分解,进而逐步分离趋势项和周期项,实现渐进式分解。

序列分解的描述如下,输入位长度为L的序列 X ∈ R L × d X \in R^{L \times d} XRL×d
序列分解
其中, X X X为待分解的隐变量, X t , X s X_t, X_s Xt,Xs分别为趋势项和周期项,上述公式合并写为
X t , X s = S e r i e s D e c o m p ( X ) X_t, X_s = SeriesDecomp(X) Xt,Xs=SeriesDecomp(X)

模型输入

encoder 输入为: X e n ∈ R I × d X_{en} \in R^{I \times d} XenRI×d。decdoer输入包含了周期项 X d e s ∈ R ( I / 2 + O ) × d X_{des} \in R^{(I/2 + O) \times d} XdesR(I/2+O)×d 和趋势项 X d e t ∈ R ( I / 2 + O ) × d X_{det} \in R^{(I/2 + O) \times d} XdetR(I/2+O)×d,其中 I / 2 I/2 I/2为输入序列 X e n X_{en} Xen的后半部分,O为填充的固定值,用来作为预测部分的占位符。
模型输入

编码器

编码器

解码器

解码器
基于上述渐进式分解架构,模型可以在预测过程中逐步分解隐变量,并通过自相关机制、累积的方式分别得到周期、趋势组分的预测结果,实现分解、预测结果优化的交替进行、相互促进。

2.2 自相关机制 Auto-Correlation Mechanism

在这里插入图片描述

论文提出基于自相关机制来实现高效的序列级连接,从而扩展信息效用。不同周期的相似相位之间通常表现出相似的子过程,论文利用这种序列固有的周期性来设计自相关机制。

周期依赖 Period-based dependencies

基于随机过程理论,对于实离散时间过程 { X t } \{X_t\} {Xt},可以如下计算其自相关系数:
在这里插入图片描述
R x x ( τ ) R_{xx}(\tau) Rxx(τ)表示时延为 τ \tau τ 的时延相似度,可以将这种时延相似性看作未归一化的周期估计的置信度,即周期长度为 τ \tau τ 的置信度为 R x x ( τ ) R_{xx}(\tau) Rxx(τ)

时间延迟聚合 Time delay aggregation

依据估计出的周期长度,首先使用Roll操作进行信息对齐,再进行信息聚合
时间延迟聚合

Auto-Correlation vs. self-attention family

自相关机制(Auto-Correlation Mechanism)实现了序列级的高效连接,从而可以更好的进行信息聚合,打破了信息利用瓶颈。
在这里插入图片描述

3. 实验

3.1 Main Result

多变量时序预测

在这里插入图片描述

单变量时序预测

在这里插入图片描述

3.2 消融实验

分别对比了原始Transformer-based模型、先分解再使用两个模型分别预测的方式、以及论文提出的深度分解架构,论文架构效果均有明显提升。
在这里插入图片描述

自相关机制 vs. 自注意力机制

在这里插入图片描述

3.3 模型分析

时序分解效果

随着序列分解单元的数量增加,模型的学到的趋势项会越来越接近数据真实结果,周期项可以更好的捕捉序列变化情况,这验证了渐进式分解的作用。
在这里插入图片描述

依赖学习

通过对比可以发现,Autoformer中自相关机制可以正确发掘出每个周期中的下降过程,并且没有误识别和漏识别,而自注意力机制存在错误和缺漏。
在这里插入图片描述

复杂周期性建模 Complex seasonality modeling

在这里插入图片描述

效率分析

在存储占用和运行时间两个指标上,自相关机制均表现出了优秀的空间时间效率,两个层面均超过自注意力机制。
在这里插入图片描述

评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值