FEDformer: Frequency Enhanced Decomposed Transformer for Long-termSeries Forecasting

本论文Submission and Formatting Instructions for ICML 2022

摘要

   虽然基于Transformer的方法已经显著提高了长期序列预测的先进结果,但它们的计算代价是高昂的,更重要的是它们无法捕捉时间序列的全局视图。为了应对这一问题,文章提出将Transformer和季节趋势分解方法相结合,用分解方法捕捉世界序列的全局模式,而用Transformer捕捉更细节的结构。为了更好的提升Transformer在长期预测中的性能,我们利用了这样一个事实,即大多数时间序列倾向于在众所周知的基(如傅立叶变换)中具有稀疏表示,并提出一个增频Transformer。该方法被称为频率增强分解变压器(FEDformer),不仅效率更高,而且其复杂度与序列长度呈线性关系,比标准Transformer的效率更高。实验在六个基准数据集上进行,与最先进的方法相比,FEDformer在多变量和单变量时间序列任务中能够分别降低预测误差14.8%和22.6%。

1 引言 

   长期时间序列预测在各种应用中是一个长期的挑战,如能源、气象、交通、经济等。尽管RNN类型的方法取得了令人印象深刻的结果,但它们有梯度消失和梯度爆炸的问题,这显著限制了它们的性能表现。随着Transformer在NLP和CV领域的成功,它被用于捕捉时间序列预测中的长期依赖性并展示出有前景的结果。但Transformer较高的计算复杂度和内存需求使得它难以应用于长序列建模,因此大量的研究致力于降低Transformer的计算成本。

 尽管基于Transformer的时间序列预测方法取得了进展,但在某些情况下,它们往往无法捕捉到时间序列的总体特征或分布。图1中我们在真实数据集ETTm1上(Zhou et al., 2021)比较了真实值和vanilla Transformer(Vaswani et al., 2017) 方法的预测值,很显然预测的时间序列与真实值展现了不同的分布。这种真值和预测值之间的差异可以用Transfoemer中的point-wise注意力和预测来解释。由于每个时间步的预测是独立的,因此模型很可能无法保持时间序列作为一个整体的全局属性和统计特征。为了克服这个问题,我们在工作中利用了两个想法:

  1. 结合季节性趋势分解方法
  2. 将傅立叶分析与基于变换的方法结合起来(从时域到频域,有助于Transformer更好的捕捉时序全局特性)

  PEDformer的一个关键问题是傅里叶分析应该使用哪个频率分量子集来表示时间序列。一个常用做法是保留低频成分,丢弃高频成分,但是这可能不适用于时间序列预测,因为时间序列中的一些趋势变化与重要事件有关,如果我们简单地删除所有高频成分,这部分信息可能会丢失。我们通过有效利用时间序列倾向于在傅立叶基的基础上具有(未知的)稀疏表示这一事实来解决这个问题。根据我们的理论分析,随机选取频率分量子集,包括低频分量和高频分量,可以更好地表示时间序列。除了对长期预测更有效外,将Transformer与频率分析相结合还可以将Transformer的计算成本从二次复杂度降低到线性复杂度。我们注意到,这与以前加速Transformer的努力不同,后者通常会导致性能下降。本文工作的贡献如下:

  • 为了更好地捕捉时间序列的全局特性,将季节趋势分解结合进来,提出了一种频率增强Transformer架构。
  • 在Transformer结构中提出了傅立叶增强块和小波增强块,允许我们通过频域映射捕获时间序列中的重要结构。它们可以作为自我注意和交叉注意块的替代。
  • 该模型通过随机选择固定数量的傅里叶分量,实现了线性计算复杂度和内存开销。从理论上和实证上验证了该选择方法的有效性。
  • 我们在跨越多个领域(能源、交通、经济、天气和疾病)的6个基准数据集上进行了广泛的实验。实证研究表明,所提模型在多变量和单变量预测任务中分别提升先进方法的性能14.8%和22.6%。

 2 频域中时间序列的紧凑表示

  本文工作区别于其他长期预测算法的一个关键贡献是使用神经网络进行频域运算。如何用傅立叶分析恰当地表示时间序列中的信息是至关重要的。

  1. 只简单地保留所有的频率分量可能会导致较差的表示,因为时间序列中的许多高频变化是由于噪声输入引起的。
  2. 仅保留低频分量也可能不适合用于序列预测,因为时间序列中的一些趋势变化代表了重要事件。
  3. 使用少量选定的傅立叶分量保持时间序列的紧凑表示可使Transformer的计算变得高效,这对建模长序列至关重要。

作者建议通过随机选择固定数量的傅立叶分量(包括高频和低频)来表示时间序列 

模型流程

 3 模型结构

  本节将介绍(1)FEDformer的总体结构,如图2所示,(2)信号处理的两种颠覆结构:一种是傅立叶基,另一种是小波基,(3)混合专家机制进行季节趋势分解,(4)提出的模型的复杂性分析

主要结构

Frequency Enhanced Decomposition Architecture(频率增强分解结构)

 在Autoformer中,分解模块使用的是固定的窗口大小,为了克服固定大小在具有复杂周期和趋势分量的现实情况下的不足,作者设计了一个混合型分解模块,其主要由若干个不同大小的窗口组成,提取到多个不同的分量特征,同时作者还对他们设置了权值,旨在区分不同分量特征对模型的贡献,最终以加权求和的方式获得最终趋势数据。这部分通俗易懂,主要进行了不同尺度的滤波操作获得多种结果,并对他们加权计算最终结果。


Fourier enhanced blocks and Wavelet enhanced blocks(傅里叶增强模块和小波增强模块)

   在该部分,作者提出将Transformer和傅里叶分析相结合,取代以往将Transformer应用于时间特征提取,改为使用Transformer对傅里叶变换后的频域数据进行特征提取。然而时域数据转化为频域数据带来的是大量的频率分量,是否针对所有数据进行特征提取或者如何选择这些分量将是一个问题。针对这个问题,作者进行了分析和验证。
 

使用所有频率分量

虽然数据一点不会丢失,但考虑到傅里叶变换的局限性,过多的频率特征带来的将是冗余的信息资源、庞大的机器和时间开销以及过拟合的风险,因此不适用于对所有数据进行特征提取。
使用部分高频分量

高频分量代表时间序列中变化的突变型特征,确实具有一定的特殊性,然而噪声的存在否定了特殊性存在的合理性,过度地对高频分量进行特征提取,或许模型最终学习到更多噪声的内容,而难以关注时间序列本身。
使用部分低频分量

低频分量较为平缓,而时间序列中趋势的变化往往与重要事件的发生有关,缺少了高频分量对趋势的影响,时间序列将不具个性,预测的意义也大大降低。
随机选择分量 作者通过论证得到随机选取分量更有效,大大降低了复杂度。

该部分内容将被使用在时域转频域后频域分量的选择。
 

Fourier Enhanced Structure(傅里叶增强结构)
Frequency Enhanced Block with Fourier Transform(FEB-f)

该部分主要对时序数据在频域上的特征进行提取,具体步骤如下:
1.输入数据通过多层感知机调整长度、增加非线性;
2.通过快速傅里叶变换,由时域数据转换为频域数据;
3.对频域数据随机选择分量 ,减少信息冗余、降本增效;
4.随机初始化矩阵R,并与随机选择的频率分量相乘;
5.为了便于后续进行傅里叶逆变换,需要将数据以0补足维度;
6.通过傅里叶逆变换,由频域数据转换为时域数据。
 

Frequency Enhanced Attention with Fourier Transform (FEA-f)

该部分替换了常规注意力模块,不同的是对q k v进行了频域下的特征提取,具体步骤如下:
1.由Encoder经过多层感知机获得v和k,由Decoder经过多层感知机获得q;
2.q k v 在快速傅里叶变换下由时域数据转换为频域数据,对他们随机选择分量 ;
3.接下来的步骤和传统注意力机制一样:k q相乘后经激活函数再与v相乘;
4.为了便于后续进行傅里叶逆变换,需要将数据以0补足维度;
5.通过傅里叶逆变换,由频域数据转换为时域数据。

Wavelet Enhanced Structure(小波增强结构)

在完成了傅里叶增强结构后,作者针对傅里叶变换的局限性,又提出了一种小波增强结构。在学习这部分之前,需要清楚傅里叶变换和小波变换的差别和联系。于是我也去临时抱佛脚了一波,根据我的理解,大致是傅里叶变换的条件过于理想,在现实的许多场景下,信号往往是非平稳的,而对非平稳过程,傅里叶变换有着明显的局限性(可参考该链接回答)。
针对该局限性,前人提出多种方法,其中小波变换尤其突出。而本文作者应该也是考虑到了这样的局限性,因此尝试用小波变换代替傅里叶变换,最终探索出了小波增强结构。
小波变换方法主要针对多个局部的时序数据进行变换,因此在该部分,作者将每一段局部数据进行分解重建,主要模块还是沿袭的上文傅里叶增强结构中提到的模块,这和小波变换和傅里叶变换的异同点有关

Frequency Enhanced Block with Wavelet Transform(FEB-w)

该部分和FEB-f不同,作者使用固定的小波基对矩阵进行分解,分别使用三个FEB-f模块处理分解后的高频数据、低频数据和剩余数据,如左图所示。随后采用重建模块融合多组数据进行数据重建,如右图所示。

Frequency Enhanced Attention with Wavelet Transform(FEA-w)

该部分的内容和FEB-w异曲同工,作者使用相同的分解矩阵对k q v 分解为三对,每一对q k v再通过FEA-f进行特征提取,如上图所示。而数据重建部分,则和FEB-w中的重建方法一样。

4.实验结果

4.1 主要结果

多变量
与Autoformer相比,FEDformer的总体相对MSE降低了14.8%。值得注意的是对于部分数据集,如Exchange和ILI,其性能提升更为显著(超过20%)。Exchange数据集在其时间序列中没有明显的周期性,但FEDformer仍然可以获得优越的性能。具体结果如表2。

单变量
与Autoformer相比,FEDformer得到了总体22.6%的MSE降低,并且在部分数据集如traffic和weather上,其改善程度大于30%。值得注意的是,**由于傅里叶基和小波基的不同,FEDformer-f和FEDformer-w在不同的数据集上表现良好,使它们成为长期预测的互补选择。**具体结果如表3。

 作者在六种基准数据集上进行了测试,结果表明,所提的两种方法(傅里叶和小波)具有一定的优势,但在所有场景下,两种方法之间很难有绝对优势的存在。对于不同种类的基准数据,可能因为他们自身的平稳性等情况的不同,从而在傅里叶和小波模块的两种情况下存在着一定的差异。值得注意的是,两种方法在六种数据集中的优势恰恰互补,在一定程度上也说明作者所提模型的有效性。

4.2 消融实验

  使用消融实验目的在于比较频率增强块及其替代的性能。将使用自相关机制的Autoformer的SOTA结果作为基线,测试了FEDformer的三种变体.作者使用控制变量的方法对所提模块的效果进行测试。

其中,V1:代表仅使用FEB代替自注意力;V2: 仅使用FEA代替交叉注意力;V3: 使用FEA替代自注意力及交叉注意力。

FEDformer-f的消融版本和SOTA模型在表4中进行了比较,如果消融版本带来了与Autoformer相比的改进,我们使用粗体数字。由于篇幅限制,我们在FEDformer-w中省略了类似的结果。从表4中可以看出,FEDformer V1改善了10/16例,而FEDformer V2改善了12/16例。我们使用了FEB和FEA块的FEDformer获得了最佳性能,此时所有16/16情况都有性能提升,验证了所设计的FEB、FEA对自我和交叉注意替换的有效性。此外,ETT和Weather数据集上的实验表明所采用的MOEDecomp(混合专家分解)方案比单一分解方案平均提高2.96%。

 4.3 模式选择政策

频域分量随机选择策略的消融

离散傅里叶基的选择是有效表示信号和保持模型线性复杂度的关键。**随机策略不需要输入的先验知识,很容易在新任务中泛化。**这里我们对随机选择策略和固定选择策略进行了实证比较,实验结果如图6所示。采用随机策略比只保留低频模态的常规固定策略性能更好。同时,随机策略表现出一定的模态饱和效应,说明适当的模态随机数而不是全部模态会带来更好的性能

4.4 预测输出的分布分析

  本节定量地评估不同变压器模型的输入序列和预测输出之间的分布相似性。我们使用Kolmogrov-Smirnov测试检查在ETTm1和ETTm2上不同模型的预测结果是否与输入序列一致。特别地,我们测试固定96时间步长的输入序列是否来自与预测序列相同的分布,零假设是两个序列来自相同的分布。在两个数据集上,通过设置共同的p值为0.01,除了Autoformer,现有的各种Transformer基线模型的值都远小于0.01,这表明它们的预测输出相比于输入序列有更高的概率从不同的分布中采样。相比之下,Autoformer和FEDformer的p值要大得多,这主要与它们的季节趋势分解机制有关。虽然两种模型在ETTm2中得到了接近的结果,但所提出的FEDformer在ETTm1中具有更大的p值。并且它是唯一一个在两个数据集的所有情况下p值都大于0.01时零假设不能被拒绝的模型,这意味着由FEDformer生成的输出序列与输入序列相比具有更相似的分布,从而证明了我们在第1节中讨论的FEDformer的设计动机。

 4.5 与Autoformer基线相比的差异  

   由于我们使用分解的编码器-解码器整体架构如Autoformer,我们认为强调其差异是至关重要的。在Autoformer中,作者考虑了一个很好的想法,使用top-k子序列相关(自相关)模块,而不是点式注意,并且为了提高子序列级相似性计算的效率,采用了傅立叶方法。一般来说,Autoformer可以被认为是将序列分解为多个时域子序列进行特征提取。相反,我们采用频率变换将序列分解为多个频域模态来提取特征。特别是,我们在子序列选择中不使用选择性方法。而是所有的频率特征都是从整个序列中计算出来的,这种全局特性使我们的模型对长序列具有更好的性能。

5 总结

   文章提出了一种用于长期序列预测的频率增强变压器模型,该模型不仅具有最先进的性能,而且具有线性计算复杂度和存储成本。提出了一种频率低秩逼近和混合专家分解的注意机制来控制分布漂移。提出的频率增强结构将输入序列长度和注意矩阵维数解耦,从而拥有线性复杂度。文章在理论上和实证上证明了所采用的随机模式选择策略在频率上的有效性。最后,大量的实验表明,与四种先进的算法相比,该模型在6个基准数据集上获得了最佳的预测性能。

  Autoformer可以认为是将时序序列分解为多个时序子序列进行特征提取,而FEDformer则是从频域的角度进行提取,两个在具有相似模型框架的同时又有着较大的不同。通过多个实验,后者展现出优异的特征提取能力,进而在长时序中具有优异的性能。
作者在Autoformer的基础上进行深入创新,融入了傅里叶变换的同时,进一步探索了融入小波变换的可能性,更加证明了合理使用传统领域的发现,将其与深度学习相结合,往往会有着不错的效果。通过学习发现,小波变换部分的模块与傅里叶模块有着直接相关,因此小波模型的运行不管是空间还是时间都将是一大开销。
 

  • 18
    点赞
  • 32
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值