Informer：Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文解读

最新推荐文章于 2024-10-11 08:10:20 发布

FutureForMe@

最新推荐文章于 2024-10-11 08:10:20 发布

阅读量2.1k

点赞数 5

分类专栏：时序预测文章标签：深度学习机器学习神经网络 pytorch

本文链接：https://blog.csdn.net/qq_39352201/article/details/115220025

版权

时序预测专栏收录该内容

2 篇文章

订阅专栏

Informer：Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

【写在前面】该论文是AAAI 2021中的best paper，作者来自北航，其中心思想就是提出了一种改进版的Transformer模型，然后将其应用在长时间序列的预测上，并且取得了很好的实验效果。整篇论文读下来，还是可以发现best paper确实是有一定东西的，不仅创新点新颖，而且还有较多的理论推导，内容十分翔实，值得大家细读。

论文地址：https://arxiv.org/pdf/2012.07436v2.pdf
论文源码：https://github.com/zhouhaoyi/Informer2020

Abstract： 由于Transformer存在一些问题，例如：二次时间的复杂性、高内存使用率以及编码器-解码器固有的限制，本论文基于Transformer设计了一种适应于长期时间序列预测(LSTF) 的高效的结构–Informer ，该模型主要有一下三个特点：(i) ProbSparse*自注意力机制 ，时间复杂度和空间复杂度都达到了O(LlogL)，并且在序列依赖对齐上还有较好的性能；(ii)通过将 层叠层输入减半，使自我注意力的提取更加集中，并有效地处理极长的输入序列; (iii)生成相应风格的decoder，该decoder采用一次向前操作来预测整个长时间序列，而不是一步一步的方法，大大提高了推理速度。

1. Introduction

在一些长时间序列数据集上，作者采用LSTM进行了时序预测的测试，具体效果图如下：
在这里插入图片描述
作者分别进行了预测长度从12个点（0.5天）到480个点（20天）的实验，实验发现随着预测时间的变长，MSE分数逐渐上升，推理速度逐渐下降。（注：MSE分数越小说明模型预测能力越好）

作者通过一个小实验说明了进行长时间序列的时间预测技术还不成熟，这也是作者的motivation

针对LSTF问题主要的挑战就是提高预测能力，主要要求有：a)有效的长范围对齐能力; b)对长序列输入输出的高效处理能力。

Transformer中的自注意力机制可以将网络中信号通路长度减小到理论值O(1)并且可以避免循环结构，因此Transformer在LSTF问题上有很大潜力。但是自注意力机制由于它在输入输出上的的L-quadratic计算和内存消耗问题，与LSTF中的b)要求相违背。因此该论文寻找以下问题的答案：

Can Transformer models be improved to be computation, memory, and architecture efficient, as well as maintain higher prediction capacity?

Transformer在解决LSTF上的三大问题：

1.自注意的二次计算自注意力机制中的原子操作(点积)会将每一层的时间复杂度和内存利用率提升到O(L2)

2.长输入堆叠层中的内存瓶颈 encoder/decoder层中J个stack堆叠，其总体内存使用率就会达到O(J·L2)，这就限制了模型对接受长序列输入的可伸缩性

3.预测长输出的速度骤降 Transformer的动态decoder使得step-by-step的推理与基于RNN的模型一样慢

作者认为，现有一些Transformer的变种，例如Sparse Transformer、LogSparse Transformer、Reformer、Linformer、以及Transformer-XL和Compressive Transformer都集中解决了问题1，即自注意力机制的二次计算问题，问题2、3仍然存在。

作者根据以上三个问题，提出了自己的解决方法，也就是作者的idea

本论文的主要贡献如下：

1.提出了ProbSparse 自注意力机制，有效地替代了原始的自注意力机制，并且其时间复杂度和空间利用率都达到了O(LlogL)

2.提出了自注意力蒸馏操作，提取主要的注意力，极大降低了整体的空间复杂度

3.提出了生成风格Decoder，只需要一步前向步骤就可以获得所有输出，避免了在推理阶段的误差积累

2. Preliminary

问题定义

给定固定窗口大小下的滚动预测，input为： $X^t=\lbrace x^t_1,...,x^t_{L_x} | x^t_i \in R^{d_x} \rbrace$ ， output为： $Y^t = \lbrace y^t_1,...,y^t_{L_y} | y^t_i \in R^{d_y} \rbrace$ ，LSTF问题处理的输出长度相比之前的工作要更长，并且特征的维度也并不是限制在单变量。

Encoder-decoder结构

现有的模型都采用了“编码”输入表示 $X^t$ 成一种隐状态表示 $H^t$ ，然后在“解码”部分将隐状态 $H^t= \lbrace h^t_1,...,h^t_{L_h} \rbrace$ 解码为输出 $Y^t$ 。这个推理过程涉及到一个逐步的动态解码过程，即需要由 $h^t$ 计算出 $h^{t+1}$ ,然后去预测 $y^t_{k+1}$ 。

输入表示
给出了一种统一的输入表示法来增强时间序列输入的全局位置上下文和局部时间上下文。输入表示形式作者在附录中进行了详细介绍，具体操作如下，位置信息就是作者所说的局部时间戳，但是同时还会存在一些全局信息，也就是像周数信息等，作者将二者进行了融合。
在这里插入图片描述

3. Methodology

在这里插入图片描述
上图就是该论文的模型框架图，该模型框架图完全沿用了Transformer的格式，只是在作者提出的三个方面进行了修改。在Encoder中，将原来的self-attention机制进行替换，然后加入了蒸馏操作，其中浅蓝色部分就是蒸馏操作，该部分同时有两天线在进行，也就是图中两个大小不同的矩形；Decoder中的改变就是仅仅替换了self-attention机制，然后在两个部分中都是去掉了原来的前馈网络，在Decoder增加了一个全连接层进行输出。

3.1 高效的自注意力机制

原始Transformer中的self-attention定义了元组(query, key, value)作为输入，然后执行点积操作 $\frac {QK^T} {\sqrt d})V$ , $\in R^{L_Q \times d}, K\in R^{L_K \times d}, V\in R^{L_V \times d}$ , d是输入的维度。

针对Transformer中的self-attention进行了实验，发现现有的注意力机制存在**“长尾”现象**，即少数的注意力点对贡献了大部分的注意力分数，大多数点对是可以被忽略的。
在这里插入图片描述
为了解决这个问题，论文定义了一个计算query 和其余所有的Key的公式：

如果这个结果越大，则说明这个query在统计图中靠前的可能性就越大。

ProbSparse 自注意力

本论文根据以上问题提出了一个ProbSparse自注意力机制，在该机制中每一个key与前u个queries进行计算。
在这里插入图片描述
其中 $\overline{Q}$ 是一个与原始Q大小相同，由前u个queries组成。其中 $u=clnL_Q$ ,c是一个恒定的采样因子。

对于M的计算公式，仍然存在一些问题，对于所有的query都需要与所有的key进行计算，然后排序取前u个queries，这个时间复杂度仍然是 $O(L_QL_K)$ ，此外对于 $e^{\frac{q_ik^T_j}{\sqrt{d}}}$ 的计算过程会有潜在的数值稳定问题。因此提出了近似query稀疏度测量。
在这里插入图片描述

通过Lemma 1，解决了数值不稳定问题；根据Proposition 1，我们可以随机抽取 $U=L_QlnL_K$ 个点对来计算 $\overline{M}$ ，即可以将时间复杂度和空间复杂度问题降到 $O (L l n L)$ 。