Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting

摘要

许多实际应用需要对长序列时间序列进行预测,例如耗电量计划。 长序列时间序列预测(LSTF)需要模型的高预测能力,即高效精确地捕获输出和输入之间的长期依赖关系的能力。 最近的研究表明,Transformer具有提高预测能力的潜力。

但是,Transformer有几个严重的问题,使其无法直接应用于LSTF,包括二次时间复杂度,高内存使用率,以及编码器-解码器体系结构的局限性。

为了解决这些问题,我们为LSTF设计了一个有效的基于Transformer的模型,称为Informer,具有三个独特的特征:

(i)ProbSparse自注意力机制,该机制在时间复杂度和内存上达到O(Llog L) 用法,并且在序列的依存关系对齐方面具有可比的性能。 

(ii)自我注意蒸馏通过将级联层输入减半而突出了注意注意力,并有效地处理了极长的输入序列。 

(iii)生成样式解码器虽然在概念上很简单,但它会以一种前向操作而不是循序渐进的方式预测较长的时间序列序列,从而大大提高了较长序列预测的推理速度。 在四个大型数据集上进行的大量实验表明,Informer明显优于现有方法,并为LSTF问题提供了新的解决方案。

Introduction

时间序列预测是许多领域的重要组成部分,例如传感器网络监控,能源和智能电网管理,经济和金融以及疾病传播分析。 在这些情景中,我们可以利用大量有关过去行为的时间序列数据来进行长期预测,即长序列时间序列预测(LSTF)。 然而,现有的方法大多是在短期问题下设计的,例如预测48点或更少。 越来越长的序列增加了模型的预测能力,使这种趋势使LSTF的研究成为现实。

LSTF的主要挑战是增强预测能力,以满足日益增长的长序列需求,这要求(a)出色的远程比对能力,以及(b)对输出和输出的长序列进行有效操作 。 最近,与RNN模型相比,Transformer模型在捕获远程依存关系方面表现出卓越的性能。 自注意力机制可将网络信号传播路径的最大长度减少到理论上最短的O(1),并避免循环结构,从而使Transformer表现出了解决LSTF问题的巨大潜力。 然而,由于自注意力机制的L次方计算和L长度输入/输出的内存消耗,因此违反了(b)的要求。

   一些大型的Transformer模型倾倒资源并在NLP任务上产生令人印象深刻的结果,但是对数十个GPU的培训和昂贵的部署成本使这些模型在现实世界中的LSTF问题上难以承受。 自我注意机制和Transformer体系结构的效率成为将它们应用于LSTF问题的瓶颈。 因此,在本文中,我们寻求回答以下问题:是否可以将Transformer模型改进以提高计算,内存和体系结构的效率,并保持更高的预测能力?

Vanilla Transformer(Vaswani et al.2017)在解决LSTF问题时有三个明显的局限性:

  • 自我注意力的二次计算。 自我注意机制的原子操作,即规范的点积,导致时间复杂度和每层存储时间为O(L 2)。
  • 长时间堆放内存层中的内存瓶颈。  J个编码器/解码器层的堆栈使总内存使用量为O(J·L 2),这限制了在接收长序列输入时的模型可伸缩性。
  • 预测长输出时速度下降。  Vanilla Transformer的动态解码使逐步推理的速度与基于RNN的模型一样慢

为了提高预测能力,我们解决了所有这些限制,并在提议的Informer中实现了超出效率的改进。

为此,我们的工作明确研究了这三个问题。 我们研究了自注意力机制中的稀疏性,改进了网络组件,并进行了广泛的实验。

本文的贡献概括如下:

  • 我们建议Informer成功地增强LSTF问题中的预测能力,从而验证了类似Transformer的模型的潜在价值,可以捕获长序列时间与 系列输出和输入。
  •  我们提出了ProbSparse自我注意机制,以有效替换规范的自我注意。 它实现了依赖关系对齐的O(Llog L)时间复杂度和O(Llog L)内存使用。
  •  我们提出了自注意力蒸馏操作,以在J堆叠层中主要控制注意力得分,并将总空间复杂度大幅降低为O(Llog L),这有助于接收长序列输入。
  •  我们建议使用生成样式的解码器,以仅需向前一个步就可以获取较长的序列输出,同时避免在推理阶段累积误差扩散。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值