AAAI 2021 最佳论文
1. 简介
1.1 背景和动机
Transformer模型在长时间序列预测问题(LSTF)中存在以下问题
- self-attention O ( n 2 ) O(n^2) O(n2)计算量的问题
- 长序列输入的内存瓶颈问题
- 预测长输出时的训练速度的骤降问题
1.2 本文工作
为了解决上述问题,本文主要工作和贡献包括
- 提出了Infomer模型,提升了LSTF问题的预测能力,证明了Transformer-like模型捕获长时序跨度依赖的能力
- 提出了ProbSparse Self-Attention Mechanism,降低了常规 Self-Attention 计算复杂度和空间复杂度,均达到了 O ( L l o g L ) O(L log L) O(LlogL)
- 提出了Self-Attention Distilling操作,缩短每一层的输入序列长度,降低了J 个堆叠层的内存使用量,达到 O ( ( 2 − ε ) L l o g L ) O((2 − ε)L log L) O((2−ε)LlogL)
- 改变解码方式直接一步输出结果,而不是迭代输出
2. Informer
2.1 ProbSparse Self-attention
ProbSparse Self-Attention 工作流程(引自 文章 )
(1)为每个 query 都随机采样部分的 key,默认值为
5
l
n
L
5lnL
5lnL
(2)计算每个 query 的稀疏性得分
M
(
q
i
,
K
)
M(q_i, K)
M(qi,K)
(3)选择稀疏性得分最高的 N 个 query ,N 默认值为
5
l
n
L
5lnL
5lnL
(4)只计算 N 个 query 和 key 的点积结果,进而得到 attention 结果
(5)其余的 L-N 个 query 就不计算了,直接将 Self-Attention 层的输入取均值(mean(V))作为输出,这样可保证每个 ProbSparse Self-Attention 层的输入和输出序列长度都是
L
L
L
2.2 Encoder: Self-attention Distilling
self-attention distilling的insight是随着Encoder层数的加深,由于序列中每个位置的输出已经包含了序列中其他元素的信息,因此可以缩短输入序列的长度。具体方法是:
2.3 Decoder: Generating Long Sequential Outputs Through One Forward Procedure
使用标准的 decoder 结构,由2个相同的multi-head attentionlayer 堆叠组成。decoder的输入为“预测时间点前的一段已知序列”和“待预测序列的placeholder序列”拼接而成。
3.实验