【论文阅读】2021 Informer_informer2021-CSDN博客

本文链接：https://blog.csdn.net/mataolc/article/details/129656138

文章提出Informer模型解决Transformer在长时间序列预测中的挑战，采用ProbSparseSelf-Attention降低计算复杂度到O(LlogL)，并用Self-AttentionDistilling减少内存使用。Informer在保持高效的同时提升了长序列时间序列预测的性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述
AAAI 2021 最佳论文

1. 简介

1.1 背景和动机

Transformer模型在长时间序列预测问题（LSTF）中存在以下问题

self-attention $O(n^2)$ 计算量的问题
长序列输入的内存瓶颈问题
预测长输出时的训练速度的骤降问题

1.2 本文工作

为了解决上述问题，本文主要工作和贡献包括

提出了Infomer模型，提升了LSTF问题的预测能力，证明了Transformer-like模型捕获长时序跨度依赖的能力
提出了ProbSparse Self-Attention Mechanism，降低了常规 Self-Attention 计算复杂度和空间复杂度，均达到了 $O (L l o gL)$
提出了Self-Attention Distilling操作，缩短每一层的输入序列长度，降低了J 个堆叠层的内存使用量，达到 $O ((2 - ε) L l o gL)$
改变解码方式直接一步输出结果，而不是迭代输出

2. Informer

在这里插入图片描述

2.1 ProbSparse Self-attention

ProbSparse Self-Attention 工作流程（引自文章）
（1）为每个 query 都随机采样部分的 key，默认值为 $5 l n L$
（2）计算每个 query 的稀疏性得分 $M(q_i, K)$
（3）选择稀疏性得分最高的 N 个 query ，N 默认值为 $5 l n L$
（4）只计算 N 个 query 和 key 的点积结果，进而得到 attention 结果
（5）其余的 L-N 个 query 就不计算了，直接将 Self-Attention 层的输入取均值（mean(V)）作为输出，这样可保证每个 ProbSparse Self-Attention 层的输入和输出序列长度都是 $L$