论文笔记：Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

UQI-LIUWJ

已于 2023-11-29 22:07:25 修改

阅读量2.6k

点赞数 1

分类专栏：论文笔记文章标签：论文阅读 transformer 深度学习

于 2022-09-14 21:14:01 首次发布

本文链接：https://blog.csdn.net/qq_40206371/article/details/126855562

版权

论文笔记专栏收录该内容

356 篇文章

订阅专栏

AAAI 2021 best paper

1 abstract & intro

Transformer 被广泛应用于时间序列预测任务，但是Transformer存在一些严重的问题，使其无法直接应用到LSTF（long sequence time-series forecasting）问题上
- 的时间复杂度
  - <——self-attention机制的逐点点乘操作
- 内存使用率高
  - J个encoder/decoder的堆叠，会占有 $O(JL^2)$ 的内存
- encoder-decoder固有的限制
为解决这些问题，这篇论文设计了Informer
- ProSparse Self-Attention
  - 在时间复杂度和内存使用率上达到了O(LlogL)
- self-attention distilling
  - 将级联层输入减半来控制attention，并有效地处理超长的输入序列。
  - 利用J层中的主要attention score
  - 使得空间复杂度进一步降至 $O((2-\epsilon)LlogL)$
- 对长时间序列直接进行正向预测，而不是一步一步预测，大大提高了LSTF（long sequence time-series forecasting）的速度。

2 preliminary

2.1 问题定义

输入
- 固定预测窗口大小Lx，则在t时刻的输入为 $X^t=\{x_1^t,\cdots,x_{L_x}^t|x_i^t \in R^{d_x}\}$
- 每一时刻的维度是dx，t时刻可以看到Lx个不同时间片的信息
需要预测的输出
- $Y^t=\{y_1^t,\cdots,y_{Ly}^t|y_i^t\in R^{d_y}\}$
- 每一时刻的维度为dy，需要预测未来Ly个不同时间片的信息

2.2 encoder-decoder 架构

先把 $X^t$ 编码成隐藏状态 $H^t=\{h_1^t,\cdots,h_L^t\}$ 。然后将 $H^t$ 解码成 $Y^t$
在解码（inference）的过程中，大部分采用dynamic decoding，即step-by-step的过程
- 利用前一时刻 $h^t_k$ 来计算 $h_{k+1}^t$ ，进而计算 $y_{k+1}^t$

2.3 时间序列表征

为增强时间序列输入的全局位置上下文和局部时间上下文，给出了统一的输入表示

α是在标量投影和局部投影之间平衡大小的因子

2.4 短时序预测和长时序预测的不同

输入越长，对于transformer的内存占用和时间复杂度要求越高
长时序预测的结果存在累积误差，后面的预测结果一般与前面的结果相关联
- 前面都预测的不准，往后的预测结果也不会太好
长时序预测的inference时间随着预测的长度的增加上升明显

3 模型方法

3.1 总体框架

Informer模型基于encoder-decoder结构

encoder Input是 [seq_begin,seq_begin+seq_len]这一段时间的时间序列

decoder input是 [seq_begin+seq_len-label_len,seq_begin+seq_len]的观测值+[seq_begin+seq_len,seq_begin+seq_len+pred_len]的0

3.2 注意力机制

3.2.1 传统注意力机制

$A(Q,K,V)=Softmax(\frac{QK^T}{\sqrt{d}})V$

$=\sum_j \frac{k(q_i.k_j)}{\sum_l k(q_i,k_l)}v_j$

如果用概率和期望的形式改写，那么有：

$=E_{p(k_j|q_i)}[v_j]$

其中 $p(k_j|q_i)=\frac{k(q_i,k_j)}{\sum_lk(q_i,k_l)}$ ， $k(q_i.k_j)=exp(q_ik^T_j/\sqrt{d})$

——>需要平方数量的点积计算开销、 $O(L_QL_K)$ 的内存消耗

3.2.2 传统注意力机制的稀疏性

先前的一些研究表明，自注意概率的分布具有潜在的稀疏性（长尾）
换句话说，只有少数点积对attention有贡献，其他点积可以忽略

3.2.3 query 稀疏性评估

定义第i个query的稀疏性测量值为：

第一项是log-sum-exp，max的平滑；第二项是各个 $k(q_i.k_j)=exp(q_ik^T_j/\sqrt{d})$ 的算术平均值

max函数的平滑（log-sum-exp trick）_UQI-LIUWJ的博客-CSDN博客

3.3 ProbSparse Self-attention

我们选取一个，它和q尺寸类似，不过它只包括了top-u个query（M(q,K)最大的u个）
- 用一个稀疏的矩阵 $\bar{Q}$ 代替之前的Q
$u=c\cdot lnL_Q$ （c是采样因子）
——>每个K的query/attention只需要 $O(lnL_Q)$ 次点积
——>每层probsparse self-attention有个key
- ——>每层的内存消耗是 $O(L_KlnL_Q)$
- 在self-attention中， $L_Q=L_K=L$ ，所以复杂度为 $O(LlnL)$

3.4 query sparsity的近似

但为了获取top u条query，我们需要将每条query和整个key矩阵进行一次内积计算，这需要 $O(L_Q L_K)$
此外计算M(qi,K)的第一项也需要指数级别的计算，这也比较费时间
——>这里提出了query sparsity的近似

3.4.1 一个定理

3.4.2 M的近似

随机选 $L_Q lnL_K$ 个 qi,kj对，其他qikj=0，计算 $\bar{M}(q_i,K)$ 【对每个query，选择lnLk个key】

——>在self-attention的计算中， $L_Q=L_K=L$ ，所以无论是找u，还是probsparse attention，复杂度都是O(LlogL)

3.5 encoder

Encoder设计用于提取长序列输入鲁棒的long-range相关性

随着Encoder层数的加深，由于序列中每个位置的输出已经包含了序列中其他元素的信息(self-attention的本职工作)，我们可以缩短输入序列的长度。

为避免encoder的特征映射带来V值的冗余组合，利用distilling对具有支配特征的优势特征进行
特权化“
对输入的时间维度进行了锐利的修建
从第j层到第j+1层的公式如下：
- $[]_{AB}$ 表示Probsparse Self-attention
- Conv1d是kernel为3的一维卷积
- MaxPoll是stride为2的最大池化
一次distilling，将L长度的序列变成L/2
——>两层的空间复杂度为 $O(LlnL+2\times \frac{L}{2}ln\frac{L}{2})=(2-\epsilon)LlnL$ ，小于不加distilling的2LlnL

3.6 decoder

使用标准的decoder结构
将如下内容（start token和target的补0 placeholder）送入decoder
将Masked Multi-head attention应用于ProbSparse self-attention
将mask的点积设置为负无穷
- ——>可以防止每个位置都关注未来的位置，从而避免了自回归
一个全连接层获得最终的输出，层大小取决于是在执行单变量预测还是在执行多变量预测。

3.6 Generative Inference

文章从长序列中采样一个 $L_{token }$ ，这是在输出序列之前的slice。
以预测168个点为例（7天温度预测），将目标序列已知的前5天的值作为“start token”，并将 $X_{feed\_de}=[X_{5d},X_0]$ 输入生成式推断Decoder。
X0 包含目标序列的时间戳，即目标周的上下文。
文章提出的decoder通过一个前向过程预测所有输出，并且不存在耗时的“dynamic decoding”。