阅读笔记 | FEDformer: Frequency Enhanced Decomposed Transformer for Long-term Series Forecasting

阅读论文:

  1. Zhou, Tian, et al. “Fedformer: Frequency enhanced decomposed transformer for long-term series forecasting.” International conference on machine learning. PMLR, 2022.

背景与动机

这篇论文与Autoformer的背景是相似的,都是做基于时序分解的长期时序预测,连模型都很像。但FEDformer强调了利用傅立叶基和小波基对时序在频域上应用注意力,与Autoformer在时域上基于移动平均进行简单的趋势分解和季节性分解不同。此外,文章提出预测数据与真实数据存在分布差异的问题,根据Kologrov-Smirnov分布检验进行解决,以期实现更高的算法效率和预测准确度。

模型与方法

原始的时序数据经过傅立叶变换后,形成的矩阵 A A A虽然可以保留最多的历史信息,但由于多变量时序数据的历史依赖和变量间依赖等原因,模型训练存在过拟合问题。因此文章提出对分解得到的傅立叶成分随机选择 k 2 k^2 k2个,得到一个更紧凑的矩阵 A ′ A' A,并证明了 A ′ A' A投影到 A A A后与SVD分解得到的矩阵 A k A_k Ak误差是相近的,信息损失有明确上限。

在这里插入图片描述

FEDformer与Autoformer的结构整体上是高度近似的,都采用了Encoder-Decoder结构,并同样对时序数据分解了季节性和趋势两部分并进行建模。模型的主要不同在于提出了Autoformer使用Auto-Correlation替代了自注意力模块和交叉注意力模块,而文章的FEDformer用Frequency Enhanced Block(FEB)替代自注意力模块,用Frequency Enhanced Attention(FEA)替代交叉注意力模块。此外,原来Autoformer的趋势提取用了固定窗口大小的平均池化,而FEDformer则提出MOEDecomp,用一组不同窗口大小的filters进行池化,再加权对提取的趋势进行混合。

FEB和FEA模块均有离散傅里叶变换(DFT)和离散小波变换(DWT)两种版本,互为补充,均可达到 O ( L ) \Omicron (L) O(L)的时间与存储复杂度。

FEB和FEA流程是相似的,频域投影 -> 采样 -> 学习 -> 频域补全 -> 投影回时域:

  1. 首先将原始时域上的输入序列投影到频域。
  2. 再在频域上进行随机采样。这样做的好处在于极大地降低了输入向量的长度进而降低了计算复杂度,然而这种采样对输入的信息一定是有损的。但实验证明,这种损失对最终的精度影响不大。因为一般信号在频域上相对时域更加“稀疏”。且在高频部分的大量信息是所谓“噪音”,这些“噪音”在时间序列预测问题上往往是可以舍弃的,因为“噪音”往往代表随机产生的部分因而无法预测。相比之下,在图像领域,高频部分的“噪音”可能代表的是图片细节反而不能忽略。
  3. 在学习阶段,FEB 采用一个全联接层 R 作为可学习的参数。而 FEA 则将来自编码器和解码器的信号进行交叉注意力操作,以达到将两部分信号的内在关系进行学习的目的。
  4. 频域补全过程与第2步频域采样相对,为了使得信号能够还原回原始的长度,需要对第2步采样未被采到的频率点补零。
  5. 投影回时域,因为第4步的补全操作,投影回频域的信号和之前的输入信号维度完全一致。

在这里插入图片描述

小波变换与傅里叶变换相似,只是小波基可以聚焦局部而傅里叶基注重全局,因此两者对于不同数据具有不同的适应性,互为补充。

在这里插入图片描述

实验

实验数据集与指标均与Autoformer论文相同,Baselines则只含使用了注意力机制的几个模型。

实验设置:在单变量和多变量数据下,对于同一数据集均进行不同长度的预测,计算指标进行对比;消融实验中还对本文变体和Autoformer进行了消融实验;基频采样实验讨论了在FEB和FEA模块中,在频域采样保留多少个点对最终效果的影响如何。

实验结果:FEDformer的傅里叶和小波版本在多维和单变量对比实验下取得SOTA;多次实验中的MSE方差标准差等显示FEDformer鲁棒性比Autoformer好;消融实验表面FEB和FEA确实对模型效果是有很大提升的,特别是两者一起使用时。MOEDecomp在ETT和Weather数据集上相较Autoformer的分解方案有小幅提升。

个人思考

  • 在传统的时序预测中,常常需要对输入模型的变量进行自相关和互相关分析,并手工根据分析结果选择变量并一次性地构建输入模型的数据,以抑止多重共线性的负面影响。主成分分析和奇异值分解等方法经常被用于更为自动化的变量选择和降维。因此也可以从特征降维的视角去思考对矩阵 A A A的成分选择。此外本文对矩阵 A A A成分的随机选择的效果并没有在消融实验里体现,比较遗憾,可以自习补充相关实验进行验证。

  • 在读Autoformer时就已经萌发了将傅里叶变换和小波变换引入的想法,但本文更进一步地,FEDformer考虑到应用到频域上而非时域上,而且实现了很好的效果。但在时域上的效果是否还可以提升,也是稍微值得探索的一点。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

一条独龙

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值