【论文阅读】2021 Informer

文章提出Informer模型解决Transformer在长时间序列预测中的挑战,采用ProbSparseSelf-Attention降低计算复杂度到O(LlogL),并用Self-AttentionDistilling减少内存使用。Informer在保持高效的同时提升了长序列时间序列预测的性能。
摘要由CSDN通过智能技术生成

在这里插入图片描述
AAAI 2021 最佳论文

1. 简介

1.1 背景和动机

Transformer模型在长时间序列预测问题(LSTF)中存在以下问题

  • self-attention O ( n 2 ) O(n^2) O(n2)计算量的问题
  • 长序列输入的内存瓶颈问题
  • 预测长输出时的训练速度的骤降问题

1.2 本文工作

为了解决上述问题,本文主要工作和贡献包括

  1. 提出了Infomer模型,提升了LSTF问题的预测能力,证明了Transformer-like模型捕获长时序跨度依赖的能力
  2. 提出了ProbSparse Self-Attention Mechanism,降低了常规 Self-Attention 计算复杂度和空间复杂度,均达到了 O ( L l o g L ) O(L log L) O(LlogL)
  3. 提出了Self-Attention Distilling操作,缩短每一层的输入序列长度,降低了J 个堆叠层的内存使用量,达到 O ( ( 2 − ε ) L l o g L ) O((2 − ε)L log L) O((2ε)LlogL)
  4. 改变解码方式直接一步输出结果,而不是迭代输出

2. Informer

在这里插入图片描述

2.1 ProbSparse Self-attention

ProbSparse Self-Attention 工作流程(引自 文章
(1)为每个 query 都随机采样部分的 key,默认值为 5 l n L 5lnL 5lnL
(2)计算每个 query 的稀疏性得分 M ( q i , K ) M(q_i, K) M(qi,K)
(3)选择稀疏性得分最高的 N 个 query ,N 默认值为 5 l n L 5lnL 5lnL
(4)只计算 N 个 query 和 key 的点积结果,进而得到 attention 结果
(5)其余的 L-N 个 query 就不计算了,直接将 Self-Attention 层的输入取均值(mean(V))作为输出,这样可保证每个 ProbSparse Self-Attention 层的输入和输出序列长度都是 L L L

2.2 Encoder: Self-attention Distilling

self-attention distilling的insight是随着Encoder层数的加深,由于序列中每个位置的输出已经包含了序列中其他元素的信息,因此可以缩短输入序列的长度。具体方法是:
在这里插入图片描述

在这里插入图片描述

2.3 Decoder: Generating Long Sequential Outputs Through One Forward Procedure

使用标准的 decoder 结构,由2个相同的multi-head attentionlayer 堆叠组成。decoder的输入为“预测时间点前的一段已知序列”和“待预测序列的placeholder序列”拼接而成。

在这里插入图片描述

3.实验

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
Informer是一种时序预测模型,它通过自注意力机制来捕捉时间序列数据中的长期依赖关系。根据引用\[1\]中的资料,Informer模型的设计灵感来自于Transformer模型,并对其进行了改进。Informer模型的关键创新点包括使用了多层自注意力机制和J-stacking层中以操作主导注意的self-attention提取方法。 根据引用\[2\]和引用\[3\]的内容,Informer模型在度量方法的建立方面采用了KL散度公式,并通过推导定义出稀疏性度量。为了减小自注意力机制的空间复杂度,Informer模型采用了近视稀疏性度量,将复杂度从O(L^2)减小至O(LlnL),其中L表示序列的长度。 总之,Informer是一种基于自注意力机制的时序预测模型,通过改进Transformer模型并引入稀疏性度量和近视稀疏性度量的方法,实现了对长期依赖关系的建模,并在空间复杂度上进行了优化。 #### 引用[.reference_title] - *1* *2* [Informer讲解PPT介绍【超详细】--AAAI 2021最佳论文:比Transformer更有效的长时间序列预测](https://blog.csdn.net/weixin_44790306/article/details/125154852)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] - *3* [解读:Informer——比Transformer更有效的长时间序列预测方法](https://blog.csdn.net/FrankieHello/article/details/113830278)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^insert_down1,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值